JIW W
dr hab. D. Pietruch-Reizes
Konsultacje: wtorki: 10-12.
W1 - Problematyka wykładu
2 semestry - 15+15 godzin wykładu. Egzamin ustny.
Problematyka języków informacyjno-wyszukiwawczych ma charakter interdyscyplinarny. Jest tu wiele trudności w ogarnięciu złożonej problematyki - językoznawstwo, informacja naukowa i wiele innych. Język i struktura języka, struktura języka informacyjno-wyszukiwawczego, pojęcie znaku. Struktura czyli gramatyka, typy gramatyk i poziomy znaków języka, aspekty semiotyczne. Cechy i funkcje języka naturalnego.
Procesy te przebiegają bardzo dynamicznie, gdyż rozwijają się podległe dziedziny - języki informatyczne, sieci komputerowe. Nowoczesne systemy informacyjne nieustannie ewoluują. Rozwijają się także same języki informacyjne. Aby omówić to zagadnienie sięgnąć trzeba aż do starożytności - tysiące glinianych tabliczek z nagłówkami, mówiącymi o treści danej tabliczki. Szersze spojrzenie historyczne konieczne jest do zrozumienia teraźniejszości.
Tendencje rozwoju języków informacyjnych - jaki jest w tym wpływ nowych technologii...
W2 - język
Charakterystycznym terminem dla językoznawstwa jest znak. Adam Weinsberg w publikacji Językoznawstwo ogólne zinterpretował znak jako wszelkie zjawisko przedmiot czy zdarzenie, które łączy w sobie pewne cechy:
Wszelki znak jest dostrzegalny za pomocą ludzkiego zmysłu (znaki wzrokowe, znaki dotykowe)
Każdy znak jest przez kogoś nadawany, występuje nadawca i odbiorca znaku. Rozumiani są jako użytkownicy znaku
Każdy znak ma swojego adresata - indywidualnego lub zbiorowego, bliskiego lub dalekiego.
Zamiarem nadawcy znaku jest, aby odbiór znaku nasunął odbiorcy pewną treść, myśli (znaczenie znaku).
Weinsberg: Połączenie nadania znaku wraz z trafną interpretacją nazywamy porozumiewaniem się między użytkownikami. Najważniejsze jest to, aby nadanie znaku było ściśle połączone z właściwą interpretacją. To jest warunkiem poprawnej komunikacji. Niezbędnym warunkiem porozumiewania się znakiem jest to, by nadawca i odbiorca znali dotyczący danego znaku uzus semiotyczny (przyjęte znaczenie). Uzus semiotyczny to taki stan rzeczy, że nadawca nadaje znak w konkretnym znaczeniu, a z drugiej strony jest odbiorca, który interpretuje go (odbiera) w ten sam sposób (to samo znaczenie).
Za znak można uznać każdy przedmiot, jaki postrzegamy zmysłowo, który komunikuje nie samego siebie, a inny przedmiot, nie postrzegalny w tej chwili zmysłowo. Każdy przedmiot jeśli jest postrzegany, jest swoim własnym znakiem.
Podział znaków. Dzielą się w zależności od tego, czy zostały celowo nadane, czy mają nadawcę?:
Symptomy (oznaki) - są niewyodrębnioną częścią zespołu zjawisk, którego zasadnicza funkcja nie jest znakowa, a najczęściej ma charakter biologiczny. Nie zostały przez nikogo nadane celowo (nie posiadają nadawcy), są niezwrotne. Jest to znak jednostronny. Np. Huk w górach oznaką lawiny.
Sygnały - Spełniają tylko funkcję znakową, są w tym wyspecjalizowane. Zostały nadane celowo przez nadawcę, aby oddziaływać na odbiorcę (są dwustronne - nadawca i odbiorca traktuje je jako znaki i wiąże z tą samą treścią). Są zwrotne - nadawca wysyła je celowo i sam musi je odbierać (kontrolując to, co nadaje). Sygnały dzielimy na 2, w zależności od tego, czy komunikują same siebie, czy zastępują inny fragment rzeczywistości, czy komunikują tylko same siebie?:
Apele - np. Znaki, mające wywołać u odbiorcy jakiś stan, działanie. Komunikują jedynie same siebie. Np.
Sygnały semantyczne - komunikują inny fragment rzeczywistości, czy są podobne do komunikowanej rzeczywistości?:
mogą być podobne do nazywanej rzeczywistości (znaki ikoniczne - jak rzeźba lub fotografia).
Jeśli natomiast sygnały nie są podobne do rzeczywistości, nazywamy znakami konwencjonalnymi, arbitralnymi (może to być mapa, znak drogowy `uwaga zakręt'). Czy funkcję semantyczną pełnią jednostki elementarne?:
Sygnały jednoklasowe funkcje informacyjne pełnią jednostki elementarne
Sygnały dwuklasowe - funkcję informacyjną pełnią zespoły jednostek. Są to wszystkie języki naturalne (elementarnymi jednostkami są głoski)
Znakom pełnym semantycznie przyporządkowana jest funkcja znacząca. Z głosek powstają wyrazy - semantycznie pełne, podczas gdy same głoski są puste.
W3 - funkcje systemów znakowych
Funkcja semantyczna - jej zadaniem jest komunikowanie rzeczywistości. Najważniejsza funkcja każdego języka naturalnego. W systemie komunikacji społecznej przepływa bardzo wiele komunikatów, dotyczących sfer rzeczywistości. Komunikaty prawne (np. Tekst aktu normatywnego, sformułowanego w języku prawniczym - orzecznictwo sądowe, doktryna (piśmiennictwo prawnicze)). Zwrócić byłoby tu trzeba uwagę na specyfikę języka prawnego pod kątem budowy i struktury wypowiedzi.
Każdy komunikat skonstruowany w języku naturalnym nie jest tylko odwzorowaniem fragmentu rzeczywistości, ale - co ważne - dla odbiorcy komunikatu jest źródłem dodatkowych informacji:
W komunikacie widzimy cechy nadawcy, dowiadujemy się o nim z samego komunikatu. Wskazują na stosunek emocjonalny nadawcy - choćby, gdy zawiera on ocenę.
Funkcja ekspresywna - poprzez intonację, tempo mowy, akcentowanie jakiejś części komunikatu nadawca wskazuje na ważne dla niego części. Ważne są tu przyrostki budujące zdrobnienia, zgrubienia (-ek, -eczek, -unio itp.). Słowa są pozytywnie lub negatywnie nacechowane - leksykalne środki ekspresji (z czasem środki te powszednieją, jeśli są często używane). Wyrażamy w ten sposób swój stosunek emocjonalny do danego elementu rzeczywistości.
Funkcja impresywna (apelatywna) - wpływanie przez nadawcę komunikatu na odbiorcę. Nadawca formułując komunikat chce wywołać u odbiorcy określone zachowanie się, reakcję, postawę. Konwencjonalne będą pewne konstrukcje składniowe jak zdania pytające (nadawca może nimi sterować zachowaniem językowym odbiorcy), zdania rozkazujące (mają wywołać odpowiednie zachowanie; żądanie podjęcia działania). Występuje w języku ogromna różnorodność środków nadawcy i postaw odbiorcy. Np. Zespół (ludzi, nienacechowane emocjonalnie), klika (negatywnie), kolektyw (pozytywne, zespół dążący do osiągnięcia czegoś dobrego). Chcąc wpłynąć na postawę odbiorcy, mamy środki leksykalne.
Funkcja fatyczna - służą potrzymaniu aktu komunikacji, także sprawdzeniu, czy komunikacja trwa nadal.
Funkcja poetycka (estetyczna) - przekaz ukształtowany zgodnie z funkcjami estetycznymi języka.
Funkcja metajęzykowa - realizują ją wypowiedzi na temat danego języka. Język potrafi mówić o samym sobie. Wypowiedzi na temat samych tekstów to funkcja metainformacyjna.
Język informacyjno-wyszukiwawczy pełni funkcję semantyczną, jednak nie sygnalizuje on żadnych postaw. Nie pełni on funkcji ekspresywnych i impresywnych. Indeksator musi przyjrzeć się dogłębnie słowu, przed użyciem.
Roman Jacobson wyróżnił funkcje języka naturalnego. Każda z tych funkcji odpowiada sytuacji komunikacyjnej:
desygnat / komunikat
Przekaz / kontekst
Nadawca ------------ Odbiorca
kontakt
kod
Nastawienie na desygnat - f. semantyczna
Nadawca - f. Ekspresywna
Kod - f. Metajęzykowa
Kontakt - f. Fatyczna
Przekaz - f. poetycka
Odbiorca - f. impresywna (apelatywna)
Mamy zatem pod kątem funkcji:
Semantyczna
Poetycka
Ekspresywna -------- Impresywna
Fatyczna
metajęzykowa
Bojar:
Informacja (sygnał)
Nadawca --------------------- Odbiorca
metainformacyjna
W4
Cechy języka naturalnego:
Język jest tym narzędziem, który umożliwia nam nadawanie i odbieranie informacji - komunikowanie się. Posługujemy się różnymi systemami językowymi, tak jak i różnymi systemami znakowymi - od chociażby rytów naskalnych.
To, co najbardziej różni języki od innych języków to dwuklasowość (podwójna artykulacja, dwoistość) - funkcje znaczącą pełnią dopiero struktury złożone z mniejszych elementów. Wyrażenia pełne zbudowane są z elementarnych wyrażeń pustych, które same z siebie nie niosą znaczenia. Wszystkie teksty zbudowane są z bardzo różnych połączeń głosek, których połączenie daje dopiero znaczenie.
Języki dwuklasowe określa się mianem fonemowych. Języki jednoklasowe są określane jako języki bezfonemowe. W języku dwuklasowym muszą obowiązywać odpowiednie reguły składni. Ważna jest tu ekonomia systemu językowego - dwuklasowość przekazuje większą ilość informacji przy wykorzystaniu mniejszej ilości elementów językowych. Uważa się, że dwuklasowość jest podstawą produktywności języka. Pozwala ona na tworzenie nowych wyrażeń, nie naruszając systemu językowego (wyrażenia potencjalne do chwili przyjęcia się w tekście).
Język naturalny to narzędzie, pozwalające przekazywać informację za pomocą niewielkiej liczby jednostek elementarnych i nieskończenie dużej ilości słów/wyrażeń. Nie wszystkie języki mają taką możliwość - np. Mają z góry określoną treść - np. Uliczna sygnalizacja świetlna.
Trzecią cechą jest arbitralność - wyraża się w tym, że w języku nie występuje związek naturalny między obiektami rzeczywistości a obiektami języka. Nie ma związku naturalnego z nazwą przedmiotu a przedmiotem (desygnatem). Jest umowność, konwencja. Wszystkie słowa są umowne, nawet onomatopeje (onomatopeje różnie są ustalane w różnych językach - nie są uniwersalne). Obiekty językowe jedynie symbolizują obiekty rzeczywistości.
Kolejna cecha to zdolność do wzajemnej wymiany - obiekt, który uczestniczy w procesie informacyjnym ma możliwość przekazywania informacji w danym języku i jednocześnie możliwość odbierania wiadomości przy użyciu tego samego kodu. Język naturalny jest kodem nadawczo-odbiorczym.
Kolejna cecha to wyspecjalizowanie języka pod względem informacyjnym. Każdy człowiek, funkcjonując w społeczeństwie, dokonuje bardzo różnych zachowań informacyjnych - w tym także zachowania językowe w procesie komunikacyjnym. Zachowania te mają na celu uczestniczenie w komunikacji społecznej. Chcę nadawać i chcę uczestniczyć w odbiorze komunikatów.
Zdolność przemieszczania komunikatu - przekaz językowy można odnosić do zjawisk zachodzących w rzeczywistości pozajęzykowej, które są oddalone od zjawisk w rzeczywistości, przestrzeni i w czasie. Możemy przekazywać informacje, których nie byliśmy świadkami. Możemy mówić o przeszłości i przyszłości. Zdolności przemieszczania komunikatu nie ma system komunikacji, w którym pies komunikuje się z panem. Pies nadaje komunikat o tym, co się dzieje obecnie - chce jeść, chce iść na spacer, nie może opowiedzieć, że wczoraj był na spacerze.
Przekazywanie języka w systemie kultury (transmisja kulturowa) - znajomość języka naturalnego nabywamy nie genetycznie, a poprzez kulturę. Wszelkie konwencje i zasady przekazywane są z pokolenia na pokolenie.
Linearność - jednostki językowe łączą się ze sobą w następstwie czasowym.
JĘZYK to system znaków, służących do porozumiewania się w obrębie danej społeczności. Różne elementy w języku można wyróżniać - jego społeczność, indywidualność etc. Według gramatyki generatywnej język to nieskończony zbiór zdań zbudowany ze skończonego zbioru symboli za pomocą skończonego zbioru reguł.
Dla JIWu ważne jest odwołanie do szerszej interpretacji, uwzględniającej języki naturalne i sztuczne: język to system znaków, złożony ze słownika i gramatyki oraz ewentualnie reguł interpretacji. Słownik to wyróżniony zbiór obiektów języka (słowa, wyrażenia, wyrazy)
Weinsberg zwrócił uwagę na to, że w źródłach logiczno-informatycznych mianem języka obejmuje się języki programowania i informacyjno-wyszukiwawcze. Dzielimy je głównie na naturalne i sztuczne. Dla językoznawstwa taka klasyfikacja jest bezużyteczna. JIW nie są bezpośrednim przedmiotem badań językoznawców.
Elementy języka (zdania i wyrazy) również są znakami. Badając kształtowanie się języków JIW badacz musi uwzględnić teorię języka -musi wziąć pod uwagę ustalenia dotyczące struktury języka, gdyż zostały one przeniesione do języków sztucznych. Analizowali to Ungurian i Ścibor.
Cechy języka informacyjno wyszukiwawczego:
W5
Język informacyjno-wyszukiwawczy - termin ten pojawia się w latach 60 XX w. Początki analizy tekstu sięgają czasów starożytnych - w muzeach możemy podziwiać fragmenty bibliotek starożytnych. Choćby biblioteka Asurbanipala w Niniwie z 7 w.p.n.e. Tak samo z Biblioteką Aleksandryjską z 3 w.p.n.e. W której uporządkowano zbiór na działy - podział na poezję, prozę, retorykę, filozofię. Dalszy podział uwzględniał cechy treściowe.
W średniowieczu zauważamy pierwsze próby przedmiotowania - poprzez wyodrębniane z tytułów dzieł wyrazów głównych. Wiek XVI przynosi katalogi księgarskie, obecne są wykazy bibliograficzne zwane katalogami, późniejsze bibliografie. Gesner: Bibliotheca universalis. Pojawiają się systemy klasyfikacji piśmiennictwa - Gabrliel Martini'ego w XVII/XVIII w. System ten został rozwinięty przez J. Ch. Bruneta.
W drugiej połowie XIX w. Pojawiło się wiele ciekawych systemów klasyfikacji piśmiennictwa, które były stosowane do opracowania bibliografii, katalogów, indeksów, kartotek. Przede wszystkim pojawia się UKD Melvina Devey'a, żyjącego na przełomie XIX/XX. Inny przykład do Cutter i jego klasyfikacja rozciągła, a także klasyfikacja biblioteki kongresu.
Dalszy rozwój JIW to prace podjęte przez Międzynarodowy Instytut Bibliograficzny 1895: La Fontaine. Języki informacyjne, zbudowane na podstawie metody klasyfikacyjnej, według której pojęcia są przedstawiane w formie klasy piśmiennictwa, pozostających między sobą w relacji nadrzędności i podrzędności i zbudowanej na zasadzie klas wiedzy.
W1897 wydano częściowo zmienione tablice UKD, w 1905 ukazało się wydanie Modyfikacji KDD (Klasyfikacja Brukselska) - Manuel de repertoire bibliographique universalle. 1905 traktowany jest jako rok narodzin UKD
Pierwsza połowa XX wieku to wiele nowych systemów klasyfikacyjnych - James Dave Braun (1862-1914) twórca klasyfikacji, posiadającej złożoną symbolikę przedmiotową; H. Bliss (1870-1955) opracował teorię klasyfikacji w 1929 roku wydał The organisation of knowledge and the system of the sciences. W 1932 Bliss opracował już własny System of Bibliographic classification.
Szczególne znaczenie miała klasyfikacja fasetowa Shigali Ranganathan, którą rozwijał w 1933-1953 - Colon Classification. Wyłożył tu system klasyfikacji dwukropkowej. Prace nad nią poza Indiami były prowadzone w Wielkiej Brytanii.
Od drugiej połowy wieku XVII rozwija się teoria katalogu przedmiotowego. Obok niej rozwijała się teoria języka haseł przedmiotowych. W latach 50 XX wieku pojawia się indeksowanie współrzędne (koordynowane) - dało ono początek językom słów kluczowych i językom deskryptorowym. Mortimer Tauge, autor indeksowania współrzędnego, Core Indexing, indeksowanie współrzędne obejmuje wszystkie systemy, w których pojęcia mogą być przedstawiane za pomocą operacji logicznych (suma, iloczyn, różnica).
Język informacyjno-wyszukiwawczy - opisuje dokumenty, a nie bezpośrednio obiekty, które są w dokumentach opisane.
1976: Ungurian: system znaków i reguł operowania nimi rozumianych tak samo prze określoną grupę ludzi - pośredników - specjalnie zbudowany w celu przedstawienia w skondensowanej postaci istotnych elementów zawartości lub formy przedstawienia informacji przechowywanej w pamięci systemu, zapewnienia przepływu informacji wewnątrz tego systemu oraz wyszukiwania w pamięci systemu informacji relewantnej w stosunku do zapytania użytkownika.
Inny przykład to Ścibor 1981 (Wprowadzenie do teorii języków informacyjnych): JIW to język sztuczny, którego wyspecjalizowaną funkcją jest opis dokumentów w celu późniejszego ich odszukania na żądanie użytkownika. Język informacyjny umożliwia odwzorowanie treści dokumentu przez tworzenie jej zwięzłej reprezentacji oraz wyrażenie charakterystyk formalnych dokumentu przez podanie ich w wyborze i w postaci ustalonej regułami danego języka informacyjnego.
W słowniku Encyklopedycznym informacji i systemów: JIW (Język informacyjny to język sztuczny, którego wyspecjalizowaną funkcją...
JIW to specjalistyczny język sztuczny, system znakowy złożony ze zbioru znaków językowych (słownika) i zbioru reguł gramatycznych, tworzony na potrzeby konkretnych systemów informacyjnych; wyraża cechy treściowe i formalne w celu ich późniejszego odszukania w zbiorze i tworzenia zapytań.
W6 - typologie JIW
W typologiach JIW uwzględniane są różne cechy - np. Długość jednostek leksykalnych, prekoordynacja i postkoordynacja jednostek leksykalnych czy też rodzaje słowników JIW. Ścibor:Typologia strukturalna JIW, 1982: Typologię oparł na kombinacji cech związanych ze strukturą języków - uzyskał 174 typy konfiguracyjne. W jego typologii wyróżnione są 4 typy podstawowe:
Języki quasi-naturalne unitermowe
Języki quasi-naturalne deskryptorowe
Języki symboliczne
Języki hybrydowe
Wspólnie z Bielicką Ścibor w pracach wydanych w latach 80 wracał do tych typologii. 6 typów:
Klasyfikacje biblioteczno-bibliograficzne (monohierarchiczne (całkowicie monohierarchiczne, z wyodrębnionymi podziałami pomocniczymi), polihierarchiczne czyli fasetowe)
Języki haseł przedmiotowych
Języki słów kluczowych
Języki deskryptorowe
Kody semantyczne
Inne języki informacyjne z rozbudowanymi środkami wyrażania relacji syntagmatycznych
Inne kryteria, które są stosowane przy podziale JIW to:
Charakter opisywanej przez nie informacji (języki dokumentacyjne, języki faktograficzne). Wyróżnia się czasem języki wyspecjalizowane w wyrażaniu cech formalnych dokumentu, oraz te wyspecjalizowane w opisie rzeczowym
Typologia JIW może brać wiele różnych cech języka: np.:
Forma wyrażeń języka
(języki o słownictwie/notacji paranaturalnej - języki, w których słownictwo składa się z elementarnych jednostek leksykalnych równokształtnych z wyrazami lub wyrażeniami języka naturalnego (jednostki quasi-naturalne)
języki informacyjne o słownictwie/notacji sztucznej - takie języki, w których elementarne jednostki języka nie są równokształtne z jednostkami z języka naturalnego - jak UKD, klasyfikacja Biblioteki Kongresu)
Koordynacja jednostek leksykalnych. Wyróżniamy:
Języki postkoordynowanne - to takie języki JIW, w których proces tworzenia wyrażeń złożonych danego JIW z jego wyrażeń elementarnych dokonuje się podczas indeksowania lub podczas wyszukiwania dokumentów (np. Języki deskryptorowe, kody semantyczne) (to rozbicie złożonych terminów na terminy proste, składanych dopiero na etapie indeksowania)
Języki prekoordynowane posiadają taką strukturę i takie reguły przejścia, w których indeksowanie dokumentów polega na przyporządkowaniu ich do wcześniej już zbudowanych lub też tworzonych w czasie indeksowania wyrażeń złożonych. Nazwy wyrażeń stanowią charakterystyki wyszukiwawcze dokumentu. Prekoordynacja słownictwa. (dopuszczanie terminów wielowyrazowych, przedstawiających złożonych jednostek)
Ewa Chmielewska-Gorczyca w Tezaurusie języka deskryptorowego przyjęła dość wysoki poziom szczegółowości słownictwa, wysoki poziom prekoordynacji, a języki deskryptorowe są postkoordynacyjne.
Istnieją dokumenty, w których charakterystykach wyszukiwawczych wystąpią terminologia i informacja naukowa. A nie musi to oznaczać terminologii informacji naukowej.
Kontrola słownictwa i forma słownika:
Języki o słownictwie swobodnym (np. języki swobodnych słów kluczowych)
Języki o słownictwie kontrolowanym (np. języki haseł przedmiotowych)
Zgodnie z przyjętą definicją JIW należy postrzegać jako system złożony ze słownika i gramatyki. Gramatyka określa sposoby połączeń kombinacji, występujących w języku elementów językowych - w całości językowe wyższego poziomu. Słownik JIW będziemy interpretować jako zbiór wyrażeń, wyrazów, elementarnych jednostek określonego poziomu danego JIW. W systemie JIW wyróżnia się 4 podstawowe poziomy znaków:
Elementarne znaki graficzne - poziom pusty semantycznie, są to przede wszystkim znaki alfanumeryczne, specjalne - służą do budowy:
Elementarne jednostki leksykalne - jednostki pełne semantycznie, najmniejsze samodzielne jednostki JIW. (np. Deskryptor `Informacja prawnicza' ACFIJMNO; w języku haseł przedmiotowych będzie to temat: np. `Dramat polski'; w przypadku klasyfikacji - symbol: np. PS = 'Literatura amerykańska'; UKD: też symbol: 821.14 = `Literatura grecka') EJL jest jednostką, która pełni funkcję syntaktyczną, służy do budowy (sama lub w połączeniu):
Zdanie - poziom, który stanowią elementarne jednostki leksykalne, połączone w spójną całość, mogą być takie zbudowane z jednej EJL. Np. `Matematyczna teoria informacji. Teoria komunikacji.' - to zdanie w języku deskryptorowym - kropka nie jest EJL, służy oddzieleniu deskryptorów. W języku haseł przedmiotowych: `Prawo - historia' - zdanie zbudowane z trzech EJL: temat myślnik określnik. Zdanie w UKD 821.162.1-1-82 = `antologia poezji polskiej'
Ostatni poziom to poziom tekstu - dwa rodzaje tekstów: charakterystyka wyszukiwawcza dokumentu, realizuje funkcję metainformacyjną i wyszukiwawczą. Tekst JIW może być zbudowany z jednego bądź kilku zdań - w zależności od dokumentu.
W7 - słowniki JIW, homonimia, synonimia
Uwzględnia się przy wyróżnianiu typów słowników 4 kategorie:
Słowniki wyliczające EJL danego JIW (słowniki UKD, wydania tablic UKD)
Słowniki zdań danego JIW (wydania specjalne tablic UKD (określona dziedzina wiedzy))
Słowniki negatywne, stop-listy (słowniki, które zawierają wyrażenia języka naturalnego, niemogące być jednostkami leksykalnymi języka informacyjnego (np. Dla słów kluczowych - wyrazy niesamodzielne - przyimki, partykuły, nie są ważne dla treści dokumentu)
Słowniki, które zawierają reguły dotyczące stosowania wyrazów, połączeń wyrazowych języka naturalnego jako EJL JIW (instrukcje indeksowania swobodnego dokumentów za pomocą słów kluczowych - określa się w nich, które wyrazy mogą być słowami kluczowymi - Np.: Instrukcja indeksowania swobodnego prac naukowo-badawczych i rozwojowych w języku swobodnych słów kluczowych - dla systemu SYNABA, działającego do dziś)
Słowniki dla JIW noszą różne nazwy:
Języki klasyfikacyjne: tablice klasyfikacyjne
Język haseł przedmiotowych: słownik haseł i określników
Języki deskryptorowe: tezaurus (zbiór hierarchicznie i tematycznie powiązanych terminów (słów))
Języki słów kluczowych: słownik słów kluczowych
Synonimia (ta sama treść, różne formy) i Homonimia (ta sama forma, różna treść) to zjawiska nieporządne dla JIW - tworząc JIW trzeba wziąć pod uwagę te zjawiska. Istnienie synonimii w JIW polega na przyporządkowaniu kilku jednostkom jednego lub kilku wyrazów lub połączeń wyrazowych w relacji synonimii. Można temu zapobiec poprzez wprowadzenie do JIW tylko jednej jednostki leksykalnej, której odpowiadać będzie tylko jeden wyraz lub kilka wyrazów.
Np. Termin KLASYFIKACJA (deskryptor tytułowy) jest krótki, jednoznaczny, rozpowszechniony w piśmiennictwie, zastępuje on inne synonimiczne nazwy, które zostały wprowadzone do tezaurusa jako askryptory (odsyłają do właściwego deskryptora). Pod deskryptorem tytułowym mamy szereg askryptorów: NU: język klasyfikacji; klasyfikacja bibliograficzna; klasyfikacja biblioteczna; klasyfikacja dokumentacyjna; klasyfikacja piśmiennictwa; system klasyfikacyjny.
Dokument, który zawiera wyrażenie „Klasyfikacja biblioteczna“ musi zostać opisany deskryptorem „Klasyfikacja“.
Innym rozwiązaniem może być wprowadzenie do słownika JIW dwóch lub więcej jednostek leksykalnych. W tekstach dokumentów odpowiada im jeden lub kilka wyrazów (lub połączeń wyrazowych). Można wówczas zastosować tzw. Odsyłacz alternatywny - środek semantyzujący wyszukiwanie. Został wprowadzony do Polskiej Klasyfikacji Tematycznej, opracowanej m.in. Przez Ścibora:
02.21 Logika
(alternatywnie stosuj 23.19 Logika (matematyczna). Teoria mnogości
23.19 Logika. Teoria mnogości
(alternatywnie stosuj 02.21 Logika (dyscyplina nauk filozoficznych)
W języku naturalnym homonimia oznacza różne znaczenia za pomocą identycznej formy językowej. W JIW występuje homonimia, gdy terminowi wieloznacznemu (wyraz polisemiczny), występującemu w tekstach dokumentów, który posiada istotne znaczenie dla charakterystyki treści dokumentu przyporządkowano w słowniku JIW tyle jednostek, w ilu znaczeniach występuje dany termin w tekstach. Terminowi wieloznacznemu przyporządkowuje się w słowniku jedną jednostkę albo umieszczamy tyle jednostek, w ilu znaczeniach występuje.
W językach paranaturalnych daną jednostkę leksykalną uzupełnia się uwagami wyjaśniającymi (dotyczą przede wszystkim niejasnego znaczenia lub nietypowego użycia danego terminu). W tezaurusie pojęcia wieloznaczne zostały uzupełnione uwagami, wyjaśniającymi użycie danego terminu. Nie stanowią te uwagi części deskryptora i nie są do końca utożsamiane ze scope note. Np.:
NIETYPOWE LITERNICTWO SN: obejmuje zagadnienia definiowania niestandardowych znaków oraz ich drukowania. FORMAT OPISU - SN: obejmuje tylko zagadnienia dotyczące formatów danych w bazach danych typu dokumentacyjnego; zagadnienia ogólne: zob.: format danych.
W8 - rodzaje gramatyk
Gramatyka obok słownika jest kluczowym elementem JIW - to zbiór reguł, które określają dla każdego poziomu języka sposoby budowania z jednostek niższego rzędu jednostki wyższego rzędu.
Biorąc pod uwagę kombinację na poziomie zdań, wyróżnia się 3 podstawowe rodzaje gramatyk:
Gramatyka o szyku dowolnym - kolejność EJL w zdaniu JIW jest dowolna. Porządkowanie jest losowe - stylistyczne, semantyczne itp. Przykładem zdania zbudowanego zgodnie z taką gramatyką jest zdanie języka deskryptorowego: Matematyczna teoria informacji. Teoria komunikacji. Znaczenie się nie zmieni, jeśli przestawimy szyk.
Gramatyka pozycyjna - miejsce, pozycja EJL jest wyraźnie określona - kolejność jest porządkowana ściśle według określonych zasad. Zdanie w języku haseł przedmiotowych (podporządkowanie określnika tematowi, określnik (ujęcie) musi występować po temacie (zagadnienie)). Zmiana kolejność powoduje zmianę znaczenia lub konstrukcję błędną. Np. Prawo - historia to co innego jak historia - prawo. (jedno oznacza historię prawa, drugie określa prawo dotyczące historii). Innym przykładem są symbole rozwinięte w UKD (poszczególne elementy symbolu mają określone miejsce w strukturze) - 21.131.1 - antologia poezji włoskiej (82-1, 82-82, 821 131.1-1-82)
Gramatyka częściowo pozycyjna - mamy do czynienia z taką sytuacją, że kolejność EJL w zdaniu jest dowolna (jednostki autosyntaktyczne są dowolne), ale kolejność jednostek niesamodzielnych (synsyntaktycznych) jest ściśle określona i zmiana ich kolejności niesie zmianę znaczenia zdania. - 54(038)=111:61-05 - angielski słownik dla medyków - (54 chemia, 038 słownik...). Natomiast61-05:54(038)=111 nastąpiła zmiana jednostek samodzielnych, znaczenie się nie zmieniło. Jednakże 61(038)=111:54-05 - angielski słownik medyczny dla chemików. Tu znaczenie mamy już inne.
CHARAKTERYSTYKA JIW W KONTEKŚCIE POWSTAWANIA ZAUTOMATYZOWANYCH SYSTEMÓW INFORMACJI
JIW jest bardzo ważnym elementem informacyjno-wyszukiwawczego. W strukturze języka służą różne instrumenty, spełniające określone funkcje. Obok środków technicznych JIW stanowi integralny element każdego systemu informacyjnego.
JIW stosowany w danym systemie jest uwarunkowany środkami technicznymi - bardzo wyraźnie wpływają na to, jak będą pokazywane wyniki i jak przebiegać będą procesy. Rozwój informatyki umożliwił istotnie rozwój systemów informacyjnych. Środki semantyzowania operacji wyszukiwania to na przykład operatory logiczne (Booley'a AND, OR, NOT itd.), operatory pozycyjne (odległości - takie, które są stosowane w pytaniu informacyjnym po to, aby wskazać, w jakich odległościach muszą wystąpić słowa, wyrażenia, zdania. Wprowadzając operator odległości, określamy czy pomiędzy szukanymi słowami mogą się pojawić słowa i jakie), maskowanie (technika wyszukiwania rdzeniowego).
System zautomatyzowany to zwykle system online, dialogowy, interakcyjny - ma strukturę, pozwalającą realizować zadania według strategii wyszukiwawczej.
Działanie systemu polega na akcji - użytkownik daje zapytanie i reakcji - wylistowaniu wyników wyszukiwania. Związane jest to z relewancją.
Każdy z systemów online posiada wbudowany protokół konwersacji - odzwierciedla on sposób prowadzania dialogu użytkownika z systemem. Powiązane są z tym języki kwerend (języki wyszukiwawcze, nie informacyjno-wyszukiwawcze; to język komend, które użytkownik ma do dyspozycji, aby prowadzić dialog z systemem. Taki język kwerend składa się z poleceń, operatorów, kwalifikatorów - umożliwiają one zbudowanie profilu wyszukiwawczego - jedna lub kilka instrukcji wyszukiwawczych: polecenie + wybrane słowo. Instrukcje takie zwykle są budowane z większej liczby operatorów.
W języku kwerend Messenger (w systemie STN) - mamy tu polecenia: select, find, change, begin, file - tworzą one język wyszukiwawczy.
W JIW w systemach online proces selekcjonowania informacji odbywa się na podstawie indeksu wyrażeń relewantnych - basic index - alfabetycznie uporządkowane terminy wyszukiwawcze. W słowniku wyrażeń relewantnych odwzorowane są cechy formalne i treściowe dokumentów i obiektów pozadokumentacyjnych. Na podstawie analizy pól wyszukiwawczych (formalnych i treściowych) można wyróżnić języki informacyjno-wyszukiwawcze, które najczęściej są wykorzystywane w funkcji metainformacyjnej:
Języki słów kluczowych
Języki deskryptorowe
Języki haseł przedmiotowych
Klasyfikacje patentowe
W minimalnym stopniu inne systemy klasyfikacyjne (np. UKD)
Eugeniusz Ścibor użył określenia „Środek językowy“ - pojęcie to ma szerszy zakres znaczeniowy niż JIW. „Środki językowe to różnego typu wykazy jednostek JIW (słowniki, indeksy quick, quok) i wszelkie formy tych jednostek (hasła, deskryptory, słowa kluczowe) oraz sposoby ich wyboru (z tytułów, tekstów, słowników)“. W bibliograficznych bazach danych są wykorzystywane kontrolowane słowa lub zdania (języki słów kluczowych, deskryptorowy), a także niekontrolowane słowa/zdania (w procesie indeksowania swobodnego), wzbogacone tytuły, klasyfikacje haseł przedmiotowych, identyfikatory chemiczne. Najczęściej występują w bazach bibliograficznych słowa kluczowe i języki deskryptorowe. Charakterystyczne jest stosowanie kilku środków językowych jednocześnie (np. Kontrolowane słowa lub zdania + język haseł przedmiotowych). Szczególnie często stosowana jest klasyfikacja UKD(?)...
W9 -
Słownik słów kluczowych językoznawstwa slawistycznego - odwzorowuje pole językoznawstwa slawistycznego. Nie można zapominać o tym, że treści teoretyczne trzeba wiązać z konkretnymi przykładami, konkretnymi językami.
KBK - klasyfikacja Biblioteki Kongresu.
Bazy bibliograficzne - zwrócić trzeba uwagę na bazy abstraktowe i zautomatyzowane katalogi biblioteczne. Oba katalogi stosują różne środki językowe. Bazy abstraktowe pojawiły się na początku XIX w. Dopiero wiek XX przyniósł rozwój tego typu wydawnictw informacyjnych. Powstały jako odzwierciedlenie drukowanych bibliografii abstraktowych. Rozwój komputeryzacji; obserwujemy automatyzację wydawania bibliografii abstraktowej - mamy dziś elektroniczny odpowiednik.
Bazy abstraktowe wykorzystują języki słów kluczowych (o indeksowaniu swobodnym najczęściej). Rozwiązania na poziomie światowym w ramach Vipo, światowej organizacji patentowej.
Bazy katalogowe. Są tu przede wszystkim widoczne języki haseł przedmiotowym lub języki klasyfikacyjne o zakresie uniwersalnym. W bazach abstarkowych natomiast częściej występuje UKD.
Już od lat '60 obserwujemy liczne próby w zakresie stosowania UKD w systemach zautomatyzowanych. Stwierdzono, że nie występują jakieś szczególne przeszkody na tej drodze. Chodziło tu także o prawa własności do UKD. Chciano stworzyć z UKD język międzynarodowy, mogący sprostać potrzebom współczesności. W 1993 roku opracowano plik wzorcowy UKD.
Zademonstrowano KDD jako środek wyszukiwania informacji. Chodziło o przystosowanie KDD do środowiska Windows 95, przystosowaniu do US-MARC. W sieci się to jednak nie sprawdziło - zaczęły się próby z jakimś pośrednim rozwiązaniem.
Doprowadziło to wszystko do powstania KABA - Katalogi automatyczne bibliotek automatycznych, z kartoteką wzorcową. W pierwszej wersji zastosowano ją w zintegrowanym systemie VTLS (Virginia Techniology Library System). Przyjmując kartotekę wzorcową, przyjęto, iż będzie ten język reprezentowany w katalogu haseł wzorcowych. To jednak tylko nowa forma organizacji i prezentacji starego języka.
Udało się stworzyć wspólne kartoteki komputerowe i instrukcje stosowania formatu US-Marc, zasady tworzenia kartotek wzorcowych. Zbudowano zatem 3 główne bazy danych: a) nazw osób i ciał zbiorowych, b) tytułów ujednoliconych, c) haseł wzorcowych KABA.
Źródłem prymarnym dla kartoteki KABA jest RAMEAU i LCSH. Dla RAMEAU (narodowa kartoteka autorytatywna bibliotek francuskich) źródłem jest język uniwersytetu w Kanadzie. Ten ma źródło w Library of Congress Subject Headings (LCSH).
W10
Rodzaje uporządkowań jednostek leksykalnych w słownikach JIW:
Uporządkowanie losowe (dowolne) - to rodzaj uporządkowania, oznaczający brak uporządkowania. Kolejność jednostek jest zupełnie przypadkowa
Uporządkowanie formalne - decyduje forma - charakter elementarny znaków graficznych, z których jednostka została zbudowana.
Uporządkowanie alfabetyczne
Uporządkowanie według kolejności liczb
Uporządkowanie semantyczne - wynika ze znaczenia jednostki leksykalnej. Istnieje szereg zasad dotyczących kolejności (np. Względem relacji):
Zasada chronologiczna - kolejność następstwa w czasie zjawisk i procesów
Zasada zwiększającej się ilości -np. Uporządkowanie tygodnik - miesięcznik - dwumiesięcznik itd.
Zasada zmniejszającej się ilości
Zasada przestrzenna (według stykania się obiektów opisywanych w dokumentach) -
Uporządkowanie formalno-semantyczne
Relacje hierarchiczne mogą być pokazane za pomocą uporządkowania formalnego lub formalno-semantycznego. Np. BRONA -> MASZYNA UPRAWNA -> MASZYNA ROLNICZA.
Różne typy JIW
Instytut Informacji Naukowej, Technicznej i Ekonomicznej: zakładano w latach 90 bazę danych, dotyczącą języków informacyjnych, opracowanych, adaptowanych i wykorzystywanych w Polsce. Praca nad tą bazą rozpoczęła się na początku lat 90 na podstawie danych, zebranych z ankiet, wysłanych do kilkuset placówek informacyjnych (centralne biblioteki naukowe, biblioteki szkół wyższych). Uzyskano ponad 50% odpowiedzi - przy określaniu typów JIW brano pod uwagę języki oryginalne, opracowywane od podstaw przez daną placówkę informacyjną, języki adaptowane (np. Słownictwo przetłumaczone na język polski, zasób uzupełniony synonimami - np. Tezaurus z zakresu medycyny głównej Biblioteki Lekarskiej - polska wersja Medical Subject Headings), języki opracowane w innych placówkach i wykorzystane przez badane instytucje. To umożliwiło rozszerzenie bazy danych o językach informacyjnych i uzyskano opis ponad 250 języków informacyjnych, stosowanych w wielu instytucjach. Kilka placówek odpowiedziało, że nie stosuje żadnych języków informacyjnych.
Z danych z początku 2000 roku wyłonił się obraz JIW, dających się uporządkować w 6(?) grupach:
Systemy klasyfikacyjne (grupujące jednostki leksykalne według klas, często hierarchicznych - monohierarchiczne i te z podziałami pomocniczymi, wreszcie te fasetowe)
Języki haseł przedmiotowych
Słów kluczowych
Deskryptorowe
Kody semantyczne (języki całkowicie sformalizowane, słownik składa się ze stosunkowo nielicznych symboli, służących do oznaczania pojęć i form gramatycznych)
Najwięcej informacji dotyczyło języków deskryptorowych - 76 instytucji wskazało język deskryptorowy, potem słów kluczowych, potem haseł przedmiotowych, 2 instytucje tylko używały kodów semantycznych. Największy jednak procent stanowią systemy klasyfikacji - głównie UKD. (lata 60 - czy nadają się te języki do systemów zautomatyzowanych - a języki deskryptorowe są już to tego dopasowane)
Przy opisie języka uwzględnia się następujące dane:
Nazwa (np. Polska Klasyfikacja Tematyczna)
Tytuł słownika (np. Tezaurus informacji naukowej)
Postać fizyczna słownika (drukowana, maszynopis (niepublikowana postać), wydruk z komputera, słowniki na nośnikach elektronicznych, słowniki w postaci kartotek)
Charakterystyka ilościowa zasobu leksykalnego - liczba jednostek/symboli (EJL).
Jednostki preferowane i niepożądane w słowniku
Wyraźne określenie gramatyki JIW - zespołu reguł, określających budowania wyrażeń złożonych. (gramatyka pozycyjna, niepozycyjna, częściowo pozycyjna)
Zakres tematyczny JIW (podanie słów kluczowych, będących nazwami dziedzin lub zagadnień reprezentowanych w języku informacyjnym)
Informacja o wzorcu, na podstawie którego adaptowano JIW. Wynika, że blisko 14% języków używanych to adaptacje.
Stan języka informacyjnego (język w trakcie budowy, eksploatacji, rekonstrukcji/przebudowy).
Współpraca przy budowie lub aktualizacji JIW (instytucje samodzielnie tworzą języki informacyjne albo pracują nad nim w zespole kilku instytucji.
Przy charakterystyce JIW należy zwrócić uwagę na system informacyjny, dla którego dany język zaprojektowano - dla którego został adaptowany. Np. W ramach systemu informacji o gospodarce żywnościowej funkcjonuje tezaurus gospodarki żywnościowej.
Zasięg systemu informacyjnego (narodowy, lokalny)
Środki techniczne stosowane w danym systemie (manualny, zautomatyzowany
Na przełomie lat 80/90 opracowano języki słów kluczowych dla nauki o polityce. Wielkość słownika 16000 EJL i 1500 jednostek niepreferowanych. Gramatyka niepozycyjna. Został opracowany dla konkretnego systemu informacji naukowej z nauk społecznych o zasięgu krajowym. Placówką odpowiedzialną był ośrodek Informacji Naukowej PAN.
Innym przykładem jest język słów kluczowej biblioteki geologicznej. Zakres od geologii ogólnej po górnictwo i hydrogeologię. 2000 EJL.
Język słów kluczowych dla nauk społecznych dla filozofii. Słownik słów kluczowych z filozofii. Albo Słownik słów kluczowych z językoznawstwa o 2000 jednostek.
Powstały takie słowniki z psychologii, pedagogiki, literaturoznawstwa.
Inny przykład to język słów kluczowych działowego ośrodka INTE, które zakres tematyczny to izolacje termiczne, meble, oprawy oświetleniowe. 1000 EJL. Powstał na użytek systemu działowego ośrodka INTE w Warszawie.
Języki informacyjne, które były i są stosowane w systemach reprezentują dużą różnorodność. Bardzo wiele z tych realizacji, które podjęto pod koniec '80 lub na początku '90 lat nie było zakończonych - rozproszono zespoły i skasowano ośrodki INTE, a prace zostały często na etapie początkowym i nie weszły do próbnej nawet eksploatacji. Pokazuje to różne założenia tworzenia systemów JIW i różne podejście do stosowania systemów informacyjnych.
W11 [7.10.2009] -
Mówiąc o Ewolucji języków informacyjno wyszukiwawczych zwraca się uwagę na 4 płaszczyzny - 4 różne ujęcia:
Płaszczyzna teoretyczna - rozważania teoretyczne, które pozwalają na przyjrzenie się podstawom teoretycznym i realizacjom badań nad tymi podstawami. Przykładem takich badań jest choćby Kategoryzacja Woźniak, Typologia strukturalna Ścibora
Płłaszczyzna odzwierciedlająca strukturę, typy i rodzaje JIW
Płaszczyzna, która pokazuje zastosowania JIW
Płaszczyzna, która dotyczy zarządzania językami informacyjnymi - to polityka tej dziedziny
Te 4 płaszczyzny są ze soba ściśle powiązane i to wyróżnienie nie wyczerpuje wszystkich możliwych kątów patrzenia na ewolucję JIW.
Płaszczyzna teoretyczna
Na rozwój podstaw teoretycznych JIW (takie jak określanie nazw i zakresów) miała wpływ subdyscyplina językoznawstwa - lingwistyka formalna. Lingwistyka formalna zajmuje się przede wszystkim językami sztucznymi i językami sformalizowanymi, w tym informacyjnymi. Katedry tej dziedziny powstały w Kopenhadze a także w Warszawie. Co upowszechniło termin język informacyjny? Pojawiły się nowe typy języków jak słów kluczowych czy języki deskryptorowe.
Pojawienie się terminu „Jężyk informacyjny“ było bardzo ważne. Termin ten pojawił się późno, gdyż w zestawieniu z lat 1955-1965 nie użyto tego terminu ani razu (Zestawienie Ścibora). Termin ten przyjął się dopiero pod koniec lat 60-tych. Wówczas w CINTE (Centrum Informacji Naukowej, Technicznej i Ekonomicznej) powstaław Poradnia, potem Pracownia języków informacyjnych.
Wcześniej funkcjonowały różne terminy - jak systemy klasyfikacyjne, klasyfikacje bibliograficzne, metody opracowania dokumentów, najczęściej jednak używano system dekryptorowy, hasła przedmiotowe, system klasyfikacyjny.
Język informacyjny i język informacyjno-wyszukiwawczy często są zamiennie używane. Język informacyjno-wyszukiwawczy często jednak definiuje się jako rodzaj języka informacyjnego, służącego do opisu dokumentów - wyspecjalizowany w tym celu język sztuczny. Ścibor w swoich książkach często podaje przykłady, Ungurian podaje ciekawą definicję o systemie znaków. Poważną konsekwencją stwierdzenia, że język informacyjno-wyszukiwawczy opisuje nie tylko formę, ale i treść dokumentów było zaliczenie do JIW klasyfikacji bibliotecznych (a także indeksy cytowań i inne). Konsekwencją stwierdzenia, że JIW jest rodzajem języka w ogóle, stało się stwierdzenie, że JIW jest parą złożoną ze słownika i gramatyki - tak jak każdy inny język. Języki JIW charakteryzują się bowiem różnymi typami gramatyk (pozyccyjne, niepozycyjne itd.)
Duże znaczenie dla podstaw teoretycznych ma typologia języków - typy i podtypy. Były różne propozycje typologiczne. Każdy badacz dorzuca swoje pięć groszy, starając się zweryfikować zastane teorie. Typologia strukturalna JIW Ścibora dokonywała szczegółowej analizy i proponowała typologię ze 140 typami (wyrosły z podstawowej struktury 5 typów - klasyfikacje, JHP, JsłówKluczowych, deskryptorowe, kody semantyczne, inne).
Typologie te wiążą się z pewną nieścisłością, swoją drogą trudną do usunięcia. Można powiedzieć, że autorzy próbują tworzyć różne typologie (wyodrębniające wszystkie ważne cechy języków JIW - jak charakter słownictwa, elementarne znaki graficzne, rodzaj gramatyki, trybu przejścia).
Podobne działania w podobnych celach były podejmowane wcześniej - w latach 30 XX w. W 1933-1953 rozwijała się teoria klasyfikacji fasetowej. W '33 ustalono klasyfikację dwukropkową Ranganata (Indie, UK). On też rozwijał ją dalej aż do wersji trzeciej, która znalazła zastosowanie w klasyfikacji głębokiej, projektowana była pod konkretnych użytkowników.
Na UW powstała katedra lingwistyki formalnej. W latach 70 opracowano tam koncepcję kodu semantycznego. Była to próba opracowania dla ogólnopolskiego systemu informacji naukowej, technicznej i organizacyjnej SINTO. Przyjęto wtedy koncepcję, że kod semantyczny odwołuje się do odpowiednio wybranych jednostek semantycznych, które były traktowane jako pojęcia pierwotne. Wyróżniono określone kategorie składniowe jednostek kodu semantycznego:
Obiekty prymarne
Obiekty Sekundarne
Operacje na obiektach
Operacje na operacjach
Charakterystyki, odnoszące się tak do operacji, jak i obiektów
Poszukiwania w zakresie JIW dotyczą nie tylko ich struktury, ale także wykorzystania ich stosowania - indeksowania i wyszukiwania informacji.
Wśród różnorodnych systemów jest System indeksowania relacyjnego Faradanne'a. Podstawą tego indeksowania (nie związanego z jakimś konkretnym typem JIW) była analiza procesów mentalnych badanych przez psychologię myślenia. Zbudował system wskaźników relacyjnych, służących do wyrażania relacji syntagmatycznych między elementami charakterystyki wyszukiwawczej dokumentu lub instrukcji wyszukiwawczej pytania. Polegało to na wyodrębnieniu i kombinowaniu z trzech stanów
W12 [14.10.2009] - podstawy teoretyczne - c.d.
Badanie efektywności wymagało wyznaczenie współczynników. W 1957 r: Perry i Kent opracowali współczynniki:
Współczynnik kompletności (recall factor) - fr=w/x
x - ogólna liczba elementów relewantnych, znajdujących się w zbiorze
m - ogólna liczba wyszukanych dokumentów
w - ogólna liczba wyszukanych elementów relewantnych
Współczynnik trafności (pertinency factor) - fp=w/m
Współczynnik strat (omission factor) - fom=(x-w)/x
Współczynnik szumu (noise factor) - fn=(m-w)/m
Przeprowadzano liczne eksperymenty i doświadczenia - jak to w Cromfirld, badające efektywność języka UKD. W innych badaniach porównywano klasyfikację fasetową i kodu semantycznego Perry'ego i Kenta. Badano zespoły języków kontrolowanych, języki klasyfikacje, języki naturalne. Innym przykładem badań były eksperymenty z wykorzystaniem JIW w międzynarodowym systemie informacji medycznej MEDLARS. Przeprowadzone badania porównawcze, badające efektywność różnych języków, wykazały, że wszystkie jzyki funkcjonują na bardzo podobnym poziomie efektywności. Funkcjonował międzynarodowy Instytut Badań Klasyfikacyjnych - jego zadaniem było stymulowanie i przeprowadzanie badań nad klasyfikacją - zwoływanie regionalnych i światowych konferencji dotyczących klasyfikacji. Wydawano także prace, zawierające raporty i sprawozdania z prac komitetu. International Clasyfication - czasopismo, poruszające problemy definicyjne, terminologii wiedzy, organizacją wiedzy.
Duże znaczenie w rozwoju JIW mają też polscy badacze - zwłaszcza w kwestii terminologii. Na ramach powyższego pisma omówiono stan badań nad JIW w Polsce (lata 1975-85).
Płaszczyzna struktury JIW
Badacze zajmują się różnymi typami języków - klasyfikacjami, kodami semantycznymi, językami haseł przedmiotowych. Złożoność tych języków jest bardzo różna, mają różne źródła powstania, miały różną historię rozwoju i badania ich pod kątem naukowym. W praktyce występują najczęściej języki informacyjne o prostej strukturze. W latach 50 poza tradycyjnymi językami (klasyfikacje, JHP) znane były tylko w opracowaniach deskryptory Mooersa, stosowane w systemie wyszukiwania informacji. Był jeszcze język systemu UNITE - 1952, opracowany przez Taubego. Te dwa języki posiadały bardzo prostą strukturę - operowały alfabetycznie uporządkowanymi wyrażeniami, zaczerpniętymi z języka naturalnego. Gramatyka i semantyka była prosta, jedynymi rodzajami środków semantycznych były łączniki.
W pierwszych typach JIW nie było kontroli słownictwa, co stawało się przyczyną strat informacji. Dlatego zaczęto rozwijać strukturę języków o indeksowaniu współrzędnym (jak języki deskryptorowe). W większości opracowań o językach deskryptorowych rok 1959 przyjmuje się za datę narodzin języków deskryptorowych - opublikowano wtedy pierwszy słownik deskryptorów Paulusa. Pierwsze tezaurusy posiadały bardzo prostą budowę - były to tezaurusy alfabetyczne proste. W tego typu tezaurusach występowały tylko relacje pomiędzy deskryptorami i pomiędzy askryptorami. W latach 60 zaczęły pojawiać się tezaurusy alfabetyczno-hierarchiczne, o bardziej zaawansowanej strukturze, wprowadzono też relacje hierarchiczne i asocjacyjne pomiędzy deskryptorami.
Dalszy rozwój JIW opartych na indeksowaniu współrzędnym widoczny jest w częściach systematycznych tezaurusów - uzupełnieniu części alfabetycznej. Z części alfabetycznej odsyłano różnymi relacjami do różnych typów deskryptorów. Przykładem ewolucji tezaurusów jest amerykański Tezaurus ogólnotechniczny 1964. Składał się z części alfabetycznej, a w kolejnym wydaniu z 1967 (Thesaurus of engineering and scientific terms) zamieszczono już część systematyczną (subject category index). Większość badaczy twierdzi, że język deskryptorowy ze słownikiem-tezaurusem jest typem JIW pomiędzy JHP a klasyfikacjami.
Przypadki zastosowania klasyfikacji fasetowej są nieliczne przy tworzeniu tezaurusów. W 1969 roku opublikowano tezaurofasetę, przygotowaną dla firmy English Electric. Obejmowała ona 2 części: tablice klasyfikacji fasetowej oraz tezaurus alfabetyczny w funkcji indeksu do tych tablic. Zastosowano notację literowo-cyfrową, wiążącą te notacje. Wyznaczyło to pewną praktykę, polegającą na grupowaniu (porządkowaniu) deskryptorów według kategorii i fasad. Znalazło to potwierdzenie m.in. w wytycznych dotyczących opracowywania tezaurusów (UNESCO). Autorzy zalecali zastosowanie układu klasyfikacji fasetowej, powoływali się na tezaurofasetę. Tezaurusy fasetowe rozwinęły się szerzej niż klasyfikacja fasetowa, która nie ma większego zastosowania.
W związku z rozwojem języków deskryptorowych pojawiły się środki semantyczne do określania relacji:
wskaźniki więzi (już w 1964 opublikowano pracę magisterską, poruszającą stosowania takich środków semantycznych)
wskaźniki roli,
współczynniki wagowe - te znane były już wcześniej - w latach 50 (Maron, Kuhnz, Rey) indeksowano, stosując wagi. Badacze ci określili to terminem indeksowanie probabilistyczne. Jednakże środki te nie znalazły szerszego zastosowania. (Bielicka).
Pojawienie się opracowania faktograficznego wymusiło pojawienie się języków informacyjnych typu obiekt-atrybut. Rozwinęły się w latach 70 w Związku Radzieckim i stosowane były w prostych systemach. Słowniki tych języków też nazywane są tezaurusami, gdyż część badaczy zalicza je do języków deskryptorowych.
W13 [21.10.2009] - ewolucja języków informacyjnych - płaszczyzna stosowania i zarządzania
Uniwersalne klasyfikacje (takie, które obejmują wszystkie dziedziny nauki i praktyki) przechodzą od 40 lat pewien kryzys. Dynamiczny rozwój tego typu systemów następował od lat 70 XIX w. do początków XX w. Wtedy powstało najwięcej najbardziej znanych klasyfikacji. Od 1933 powstały tylko 4 istotniejsze klasyfikacje bibliograficzno-bibliologiczne:
dwukropkowa Ranganatana
klasyfikacja Blissa
międzynarodowa klasyfikacja Ridnera
radziecka klasyfikacja biblioteczno-bibliograficzna
Skąd ten kryzys?
Dynamiczny rozwój wiedzy spowodował szybkie tempo rozwoju terminologii, stąd opracowanie i utrzymanie klasyfikacji uniwersalnej było bardzo trudne (ciągle nowe jednostki z przeróżnych dziedzin wiedzy). Potrzebne były zespoły specjalistów reprezentujących kilkadziesiąt dziedzin wiedzy.
Kryzys ten dotknął klasyfikacji uniwersalnych do szczegółowego klasyfikowania dokumentów.
Klasyfikacje przeznaczone do porządkowania czasopism abstraktowych rozwijają się w latach 80 i 90 i są używane do zarządzania systemami, sieciami informacyjnymi, wyodrębniania systemów informacyjnych. Systemy te były później wykorzystywane do np. retrospektywnego wyszukiwania informacji. Użytkownicy tych systemów były ukierunkowani dyscyplinarnie. Takie klasyfikacje określane były plans de clasement albo rubrykator, klasyfikator, a także dla systemu SINTO (klasyfikacja tematyczna Ścibora).
Klasyfikacje tematyczne są z reguły niegłębokie - 2 do 4 stopni podziału. Raczej odyłają do bloków tematycznych i informacyjnych. Są to przeważnie klasyfikacje monohierarchiczne - niekiedy z wyodrębnionymi podziałami pomocniczymi. Taką strukturę posiadał Rubrykator MSINT (międzynarodowy System Informacji Naukowej i Technicznej) - konstrukcja, łącząca specjalistyczne i dziedzinowo-gałęziowe systemy z krajów bloku państw socjalistycznych/radzieckich. Podsystemy współpracowały z podobnymi podsystemami umiejscowionymi w innych krajach. MSINT było częścią UNISISTu (ogólnoświatowego systemu światowego systemu informacji Organizacji Narodów Zjednoczonych).
Innym przykładem jest klasyfikacja tematyczna o ogólnopolskim zasięgu. Próbowano struktur fasetowych - np. szeroki system porządkowania BSO - broad system of ordering, opracowany w ramach FID z udziałem UNESCO. BSO to płytka klasyfikacja fasetowa - faseta fakultatywna (w celu określenia typów źródeł informacji w kategoriach innych niż te już ujęte w klasyfikacji dziedziny wiedzy) oraz fasety czasu i miejsca. Promocja klasyfikacji BSO była całkiem duża, ale system nie znalazł większego zastosowania.
Obok tych uniwersalnych klasyfikacji istnieją specjalistyczne klasyfikacje, przystosowane do jednej dziedziny nauki lub gospodarki (inaczej nazywane rubrykatorami dziedzinowymi).
Klasyfikacje tematyczne rozwijają się i mają szansę na przetrwanie. Nadają się do zarządzania systemami informacyjnymi. Klasyfikacje te mogą być uzupełnieniem języków deskryptorowych lub języka słów kluczowych.
Płaszczyzna stosowania JIW
Język informacyjny nie jest stosowany dla siebie. Przeznaczeniem jego jest funkcjonowanie w systemie informacyjno wyszukiwawczym, a ostatecznym celem jest zaspokajanie potrzeb informacyjnych czytelników. Ścibor zwrócił uwagę na trzy elementy, które decydują o działaniu każdego systemu:
zbiór dokumentów - odpowiednio uporządkowany i opisany za pomocą języka JIW tworzy:
język informacyjny - sposób jego wykorzystania jest w znacznym stopniu uwrunkowany:
środkami technicznej realizacji systemu - bowiem JIW są stosowane tak w systemach manualnych, jak i zautomatyzowanych.
W połowie lat 50 XX wieku ciągle były to systemy manualne, potem dopiero pojawiła się mała automatyzacja, po niej duża, czyli komputery. W takich warunkach języki informacyjne musiały ewoluować, by dopasować się do możliwości technicznych. Dziś często o środkach technicznych decyduje czysta ekonomia. Komputeryzacja procesów informacyjnych wiąże się z koniecznością formalizacji i wymaga bardziej rygorystycznego podchodzenia do czynności związanych z JIW. W przypadku systemu manualnego bibliotekarz w sposób intuicyjny korygował braki. W systemie komputerowym możliwość taka nie istnieje, kwerendy muszą być bardzo dokładnie opisane zgodnie z danym JIW. Instrukcje wyszukiwawcze były formułowane jedynie w umyśle bibliotekarza - w komputeryzacji muszą być one skonkretyzowane.
Automatyzacja wymusiła stworzenie pewnych narzędzi (jak maskowanie końcówek itp., stop-listy). Komputeryzacja niewątpliwie była rewolucją w przetwarzaniu, wyszukiwaniu i rozprzestrzenianiu informacji. Analizując różne systemy informacji, zauważamy zróżnicowanie stosowanych w nich języków informacyjnych - zależy to od typów systemów. Katalogi on-line stosują języki haseł przedmiotowych, w bazach abstraktowych (czyli formalno-rzeczowych) czy pełnotekstowych mamy języki słów kluczowych, języki deskryptorowe, klasyfikacje tematyczne.
Wprowadzenie komputerów do informacji naukowej to pojawienie się indeksowania automatycznego.
Płaszczyzna zarządzania JIW
Zarządzanie JIW to:
popularyzacja JIW,
wydawanie i rozpowszechnianie słowników,
szkolenie użytkowników,
pomoc przy wdrażaniu JIW w systemie informacyjnym,
badanie opinii użytkowników,
Aspekty prawne - prawa instytucji i organizacji do języka informacyjnego (jako praca twórcza),
Aspekty ekonomiczne.
Działania, które zmierzały do rewizji UKD są przykładem działań zarządzaniem tego języka. Stan klasyfikacji pogarszał się, więc FID zleciło przeprowadzenie ekspertyzy, której celem było zaproponowanie metod, za pomocą których FID może zarządzać UKD. Raport taki powstał w 1986 r. i od tego czasu zaczęły się działania w kierunku przygotowania nowej struktury UKD. Zrewidowano działy, rozwiązano Centralny Komitet Klasyfikacji (działający od 1923 r.) i na jego miejsce powołano Radę Zarządzającą UKD.
Od zarządzania jednym językiem odróżnić trzeba politykę w zakresie języków informacyjnych. Polityka ta jest ważnym elementem polityki informacyjnej w ogóle. Powinna wejść do dokumentów, które stanowią o polityce informacyjnej w danym państwie.
=> Informacja, Wiedza, Gospodarka 2001/2002.
W14 [28.10.2009] - Tezaurusy w ujęciu historycznym
Koncepcja tezaurusa, wykorzystywanego w wyszukiwaniu informacji została ukształtowana kilkadziesiąt lat temu i jest uważana za jedno z najważniejszych metod i narzędzi. Koncepcja ta wywarła wpływ na rozwój innych języków wyszukiwawczych i jest wykorzystywana do budowy narzędzi semantycznej organizacji a także przy dostępie cyfrowym. Wymagania stawiane narzędziom wyszukiwawczym są coraz większe. Od połowy lat 80 wzrastała rola użytkownika końcowego - takiego, który samodzielnie wyszukuje informacje, w różnych środowiskach informacyjnych, w różnych źródłach. Taki użytkownik oczekuje nowych narzędzi, które podają już przetworzoną informację, najlepiej od razu taką, jakiej szuka - czyli trafne. Stąd wymagania stawiane przed nowymi technologiami informacyjno-technologicznymi. Ciągła zmiana techniki powoduje, że ewoluują też narzędzia wyszukiwawcze, zatem także i tezaurusy i inne systemy organizacji wiedzy.
Dynamiczny rozwój Internetu i konieczność zorganizowania dostępu do informacji cyfrowej dla szerokiego kręgu użytkowników nieprofesjonalnych, spowodowało rezygnację z wyrafinowanych narzędzi wyszukiwawczych. Po prostu się nie sprawdzały, gdyż wymagały pewnej wiedzy i przygotowania. Zastąpiono je prostszymi narzędziami, którymi można się posługiwać intuicyjnie.
Jakie były początki tezaurusów?
Forma tezaurusa dokumentacyjnego (information-retrieval thesaurus) pojawiła się mniej więcej wtedy, gdy informacja naukowa wyłoniła się jako dyscyplina. Sama nazwa tezaurus wywodzi się z języka greckiego (gr. thesauros - magazyn, skarbiec) i przejęta została z językoznawstwa (leksykografii). Stosowano tą nazwę na oznaczenie słownika lub leksykonu. Najwcześniejsze przykłady to Thesaurus Linguae Latinae Roberta Estienne'a wydany w Paryżu w 1531 roku. Tezaurus ten miał formę jednojęzycznego słownika frazeologicznego z układem alfabetycznym. W Polsce pierwszym był Thesaurus Polono-Latino-Graecus Grzegorza Knapiusza wydany w latach 1621-1632 w trzech tomach. Nazwa tezaurus zyskała znaczenie słownika pojęciowego - słownictwo uporządkowano wg kategorii tematycznych, hasła zawierały wykaz wyrażeń pokrewnych i bliskoznacznych.
Thesaurus of english words and phrases Peter Mark Rogeta z 1852 roku to narzędzie o stu wydaniach, jest traktowany jako wzorzec tezaurusa jako słownika pojęciowego. Do zaproponowanego przez Rogeta schematu nawiązywali autorzy tezaurusów z informacji naukowej. Dzieło to miało pomóc piszącym w znalezieniu odpowiedniej frazy, pojęcia, wyrazu o określonym sensie. Tezaurus taki pomaga indeksatorowi, który wybiera najlepiej dopasowane terminy, które posłużą do budowy indeksu/jednostek języka. Użytkownikowi pomaga wybrać właściwe wyrażenie do skonstruowania zapytania informacyjnego. Chodzi tu o projekcję pola semantycznego za pomocą artykułów słownikowych, zawierając informację o relacjach semantycznych hasła.
W informacji naukowej nazwa tezaurus zaczęła być używana w końcu lat 50 XX wieku. Według Normana Roberts'a po raz pierwszy ta nazwa w takim znaczeniu i odniesieniu została użyta w 1957 roku przez Hansa Petera Luhna. Pierwsze użycie nazwy tezaurus (jako uporządkowanego wykazu terminów do wyszukiwania i indeksowania) - H. Brownson ANSF (American National Science Foundation) na konferencji w Dorking, uznaną za przełomową w badaniu piśmiennictwa. Brian Vickery w swoich pracach wskazywał pojawienie się nowego terminu na łamach Journal od Documentation w 1960. Pierwszy tezaurus, wykorzystywany do kontroli słownictwa w systemie wyszukiwania informacji popracowała firma Du Pont w 1959 roku. Inne szeroko dostępne tezaurusy opracowane były przez Centrum Dokumentacji Departamentu Obrony USA (ASTIA) w 1960. Chemical Engineering Thesaurus 1961 - Americal Insitute of Chemical Engineering. W Polsce pierwszym tezaurusem był 1969 z wykazem terminów urządzeń budowlanych i transportu bliskiego.
Źródła koncepcji tezaurusa
W pierwszym okresie wdrażania zautomatyzowanych systemów informacji. Potrzeby:
Potrzeba wyszukiwania terminów prostych, które samodzielnie identyfikują treść dokumentu, które umożliwiają post-koordynację terminów
Potrzeba wyszukiwania dokumentów w możliwie naturalnym języku
Potrzeba związana z kontrolą słownictwa - ku jednolitości i spójności poszczególnych pojęć - tak na poziomie indeksowania, jak i wyszukiwania.
Potrzeba mapy semantycznej dziedziny lub określonego obszaru tematycznego poprzez wskazywanie relacji, zachodzących między pojęciami i zapewniających identyfikację znaczenia terminów. Chodzi o naświetlenie zakresu dziedziny.
Przyglądając się ewolucji formy tezaurusa, widzimy drogę od alfabetycznych kartotek (bez relacji pomiędzy terminami) - jak kartoteka systemu uniterm - Mortimer Taube - zawierała słownictwo niekontrolowane - wyrazy o bardzo prostej strukturze znaczeniowej, wyrazów wyciągniętych z tekstu dokumentu. Uniterm się nie przyjął, bo był kłopotliwy - unitermy miały służyć wyrażaniu synonimii i homonimii. Prosta forma unitermu niosła za sobą niewielką siłę semantyczną. Można było różnie interpretować terminy = wieloznaczność. System ten nie nadawał się do szczegółowego i efektywnego wyszukiwania.
Dlatego z czasem przyszło inne rozwiązanie, które zastąpiło ten system - o znacznie większej strukturze związków wyrazowych. W kolejnych latach stała się wyraźna tendencja wzrostu pre-koordynacji na poziomie leksykalnym (indeksy do tezaurusa, formaty danych). Pre-koordynacja wyraża się tworzeniem deskryptorów w formie terminów wielowyrazowych, dokładnie identyfikujących treść specjalistycznego pojęcia. Takie tezaurusy szybko zaczęto stosować do prezentacji relacji hierarchicznych, skojarzeniowych.
Badacze (jak Stella Dexter-Clark) podkreślają, że już w pierwszym okresie tworzenia tezaurusów była widoczna różnica między metodyką opracowania tezaurusów a podejściem do budowy haseł przedmiotowych. Listy haseł posiadały odsyłacze, ale zwykle nie były wyposażone w dokładne reguły kontroli słownictwa i wyznaczania relacji słownikowych. Dominującą cechą wspólna pierwszych tezaurusów i słowników haseł przedmiotowych było to, że przedstawiały struktury alfabetycznie uporządkowanych terminów zaczerpniętych z języka naturalnego z przeznaczeniem do wyszukiwania
Inną cechą, specyficzną dla tezaurusów, stało się zalecenie równoległego prezentowania leksyki w układzie pojęciowym (systematycznym) i alfabetycznym. Tutaj tak jest zorganizowane słownictwo.
W15 [04.11.2009] - standaryzacja tworzenia tezaurusów, rozwój tezaurusów w środowisku elektronicznym
Za wzorzec klasycznego tezaurusa uważa sięTest / Thesaurus of Engineering and Scientific Terms (1967) wydany w ramach projektu Lex, realizowanego przez Amerykański Departament Obrony wspólnie z Engineering Joint Council. Test zastąpił wcześniejszy tezaurus inżynierii i został uznany za standardowe rozwiązanie. Zawierał część alfabetyczno-hierarchiczną z deskryptorami i askryptorami (flat structure, struktura płaska). W tym Teście zastosowano po raz pierwszy oznaczenia symetryczne relacji:
ekwiwalencji (USE),
hierarchicznych (BT, MT: broader/narrower term)
asocjacyjnych (RT: related term, po polsku kojarzeniowy)
Reguły konstrukcji tezaurusa, opisane dzisiaj w normach krajowych i międzynarodowych były bardzo rzetelnie opracowane. Świadczy o tym to, że zostały wyłożone w osobnym dokumencie zatytułowanym Zasady i ustalenia dot. tezaurusa. Załącznik ten zawierał rozróżnienia między terminami preferowanymi i niepreferowanymi (deskryptory i askryptory). Znalazły się tu reguły ustalania formy deskryptorów (jak forma rzeczownikowa l.poj., stosowanie skrótów, szyk terminów wielowyrazowych). Tezaurus ten był bardzo obszerny - blisko 700 stron, zawierajacych wykaz alfabetyczno-hierarchiczny 17810 deskryptorów oraz 5554 askryptory - wszystkie z zakresu nauk ścisłych, technicznych. Do właściwego tezaurusa dołączono indeksy: permutacyjny i hierarchiczny. W Teście poza częścią podstawową był też wykaz deskryptorów według kryterium semantycznego (22 kategorie tematyczne). Dzięki temu Test uznano za wzorzec tezaurusa dokumentacyjnego, czyli prezentującego kontrolowane słownictwo wyszukiwawcze nie tylko w porządku alfabetycznym, ale też wedle organizacji semantycznej. Taki model stopniowo był przejmowany przez twórców innych tezaurusów i utrwaliło się w normach i zaleceniach krajowych i międzynarodowych.
STANDARYZACJA BUDOWY TEZAURUSA
Test stał się podstawą pierwszej na świecie ameryańskiej normy ANSI Z39.19-1974: Guidelines for Thesaurus Structure, Construction and Use (1974). Projekt tej normy powstał już w '71, ale ostateczną wersję wydano po trzech latach. We wstępie wyraźnie wskazano na źródła, wykorzystywane - m.in. załącznik do Testu. To pierwszy dokument normatywny dot. kontroli i organizacji słownictwa deskryptorowego.
W marcu 1979 roku w Warszawie odbyła się konferencja: General Principles of Thesauri Building. Ustalenia tego spotkania zostały uwzględnione w pracach nad ujednoliceniem międzynarodowych zasad opracowywania tezaurusów w ramach programu UNISIST. W lipcu '79 na zamówienie UNESCO powstał pierwszy projekt dotyczący opracowywania tezaurusów na potrzeby UNISIST (System Informacji Naukowej Narodów Zjednoczonych).
Guidelines for the Establishment and Developement of Monolingual Thesauri for Information Retrieval (UNESCO 1970). To pierwsze zalecenia, dotyczące opracowywania tezaurusów. Projekt UNESCO stał się podstawą opracowania standardu ISO:2788: Documentation - Guidelines for the Establishment and Developement of Monolingual Thesauri. Projekt UNESCO niewątpliwie stworzył podstawę tworzenia norm krajowych w wielu państwach europejskich - już w końcu 1979 w RFN powstałą pierwsza zachodnioniemiecka norma oparta na tym standardzie. W 1973 Zatwierdzono we Francji normę testową. W Anglii pierwsza norma - 1979. W krajach wschodnich w 1985 roku przyjęto analogiczny standard oparty na ISO:2788 (Moskwa: Tezaurus informacionno-poiskovyj (informacyjno-wyszukiwawczy)). W Polsce pierwszy projekt normy to PN/N-09008: Wytyczne opracowania tezaurusa - całkowicie zgodny z ISO:2788 przygotowany był w 1973, w 1976 został zatwierdzony jako norma doświadczalna z ważnością do końca 31 grudnia 1978). Pierwsze wydanie polskiej normy krajowej opracowania tezaurusa jednojęzycznego zostało przygotowane w INTE i opublikowane w 1981 roku jako PN81/N-09018: Tezaurus jednojęzyczny dla polskich systemów informacyjnych.
Ważnym wydarzeniem w rozwoju koncepcji tezaurusa dokumentacyjnego była druga edycja ISO:2788 z roku 1986. Podstawą dla niej było drugie wydanie Guidelines... opracowane przez UNESCO.
Prowadzone były badania w ramach Classification Research Group. Brano pod uwagę przygotowania nad tezaurusami fasetowymi. Pojawiły się nowatorskie pomysły inspirowane badaniami brytyjskiej grupy. Podstawową inspisracją był opublikowany 1969/1970 pierwszy tezaurus zintegrowany z klasyfikacją fasetową (Thesaurofacet 1969). Zespół kierowany przez Jean Aitchison wykorzystał metodę analizy fasetowej w procesie tworzenia leksyki języka deskryptorowego. Do dziś przyjmuje się ją jako modelową.
Na standardzie z 1986 roku oparto również wydaną w 1992 drugą edycję normy polskiej PN92/N-09018: Tezaurus jednojęzyczny dla polskich systemów informacyjnych. Zasady tworzenia, forma i struktura. Normy te są kompatybilne z normą Z39.18: Guidelines... z 1993 i 2003 roku. Ta wersja rozbudowana jest już do tego stopnia, by pasować do potrzeb środowiska elektronicznego.
W16 [25.11.2009] - język deskryptorowy i tezaurusy, standaryzacja konstrukcji tezaurusów
Trwają prace nad nowymi normami międzynarodowymi - jedno i wielojęzycznymi. Istotny jest model brytyjski z 2005 (zastępuje normę z 1987) - odwołuje się do standardu ISO. Trwały kilka lat w IFLA prace nad tezaurusami wielojęzycznymi - opublikowano ogólne zasady w 2005: Guidelines for multilingual thesauri. JIW o notacji paranaturalnej w środowiskach komputerowych dzięki podobieństwu leksyki JIW do leksyki języków etnicznych są łatwiejsze w użyciu od JIW o słownictwie sztucznym. Słownictwo paranaturalne łatwiejsze jest w użyciu dla użytkownika, ale mają też szereg ograniczeń:
Korzystanie z tezaurusa, zawierającego słownictwo języka naturalnego, którego użytkownik nie zna, stanowi poważną trudność.
Wyszukiwanie na podstawie tezaurusa jednoęzycznego możemy przeprowadzić tylko w tym języku, w którym został przygotowany
Jest tylko zbiorem terminów i zależności pomiędzy nimi: wykorzystuje się na świecie bardzo różne tezaurusy, tworzone na podstawie różnojęzycznej terminologii, reprezentującej różne dziedziny i specjalności.
Nie ma jednoznacznego znaczenia terminów, włączonych do tezaurusa. Wiąże się to z interdyscyplinarnością nauki.
Tezaurusy są przenoszone do bardzo różnorodnego środowiska sieciowego muszą spełniać dodatkowe wymagania, aby nie doprowadzić do informacyjnych nieporozumień. Wiąże się to przede wszystkim z ogromną dynamiką zjawisk, zachodzących w sieci globalnej. Jeszcze przez Internetem tezaurusy wielojęzyczne z końca lat '60 stały się narzędziem kontroli słownictwa wyszukiwawczego, stosowanych w jednym systemie wyszukiwawczym lub współpracujących w sieci na bazie tego samego tezaurusa. Aby umożliwić dostęp do zasobów zaindeksowanych za pomocą różnych typów informacyjno-wyszukiwawczych w latach '70 przygotowano kilka metod łączenia języków ze sobą - tworzenia języków pośredników; konkordancji lub tablic przejścia. Na początku lat '80 prowadzono takie prace w instytucie INTE - próbowano tworzyć tablice przejścia dla: polskiej klasyfikacji tematycznej, klasyfikacji zagadnień wspólnych, JHP-BN oraz UKD (Beck, Ścibor).
Dynamiczny rozwój Internetu i wzrost zasobów cyfrowych, udostępnianych w sieci, rosnące językowe i kulturowe zróżnicowanie użytkowników stało się poważnym wyzwaniem dla wykorzystania różnych języków informacyjnych. Tezaurusy powinny znaleźć się w zasobach serwisów internetowych jako narzędzie przyjazne. Wymaga to zapewnienia komunikacji miedzy tezaurusami, które od początku były i są realizowane w postaci elektronicznej - systemami pierwotnie realizowanymi tradycyjnie. Zwraca się uwagę na interoperacyjność technologii. Tezaurusy realizowane elektronicznie mają komunikować się z systemami wyszukiwawczymi i innymi.
Interoperacyjnością tezaurusów zajęli się Amerykanie - znawcy National Information Standards Organisation (NISO) zaakceptowali Z39.19 z 1993 roku. Zaakceptowali to jako kolejną edycję w 2003, zaznaczając, że trzeba poprawić i dostosować normę do kontroli słownictwa heterogenicznego środowiska Internetu. W 1999 NISO w Waszyngtonie zorganizowała warsztaty Workshop on Electronic Thesauri. Celem spotkania było określenie oczekiwań wobec nowego standardu, zastosowania nowych realizacji tezaurusów elektronicznych - przy zachowaniu obecnych zapisów tego standardu. Wtedy to rozszerzono nazwę tezaurus do wszystkich typów tego rodzaju wykazów słownictwa (które wykorzystywane są do analizowania i wyszukiwania treści tekstów a także prezentują relacje semantyczne między wyrażeniami).
W taki sposób ustalenia warsztatów NISO objęły wszystkie formy systemów organizacji wiedzy - zarówno tezaurusy w rozumieniu klasycznym, wykazy haseł przedmiotowych, sieci semantyczne, mapy tematyczne oraz taksonomię. Wszystko to relacyjne systemy organizacji wiedzy. W ramach warsztatów rozważano podjęcie prac nad standardami relacyjnymi wiedzy, by dostosować je do środowiska elektronicznego. Podejmowano na warsztatach tematy:
Warunki zapewnienia interoperacyjności, współdzielenia zasobów leksykalnych, wielokrotnego wykorzystania informacyjnego. Zwrócono uwagę, jak organizuje się semantyczny WEB, myślano nad systemami sztucznej inteligencji.
Zapewnienie interoperacyjności zostało podkreślone w ankiecie, którą NISO rozpisało w lutym 2003 roku, związana była z pracami nad Z39.19. Dotychczasowy standard uznawano za skuteczny, ale wymaga rozwoju i trzeba go doskonalić. Powinien ten standard być wykorzystywany do innych systemów kontroli słownictwa niż tezaurusy.
Wśród szczegółowych zagadnień powinny znaleźć się metody harmonizacji różnych tezaurusów i rezygnacja z obowiązkowego wyboru terminów preferwanych oraz rozbudowa relacji kojarzeniowych. Terminy preferowane ograniczały kontrolę nad synonimią, bliskoznacznością - w tezaurusach wyszukiwawczych nadają się do wyszukiwania pełnotekstowego i zasobów wielu serwisów informacyjnych.
Interoperacyjność można rozpatrywać na 2 poziomach:
technicznym (współdziałanie elektronicznych systemów słownictwa z systemami przechowywania i wyszukiwania informacji). Poziom ten łączy się z procesem przeszukiwania danych, ma ułatwić łatwe korzystanie ze słownictwa wyszukiwawczego. System powinien być budowany poprzez kopiowanie terminów z bazy, a nie poprzez wpisywanie ich ręcznie. Uczestnictwo ułatwia automatyczne łączenie z konkretnym terminem - powiązanie terminu z ciągiem synonimicznym. To umożliwiają tylko tezaurusy elektroniczne.
semantyczna przekładalność (porównywalność słownictwa wyszukiwawczego, opracowanego dla potrzeb różnych systemów). Poziom ten warunkuje umożliwienie użytkownikom przeszukiwania różnych witryn i baz danych, w których wyszukiwane są różne tezaurusy lub inne systemy organizacji wiedzy. To trudny i złożony proces - problemem jest to, że to samo pojęcie może być reprezentowane przez różne wyrażenia w różnych systemach wiedzy. Ten sam znak w różnych systemach może mieć różne znaczenie. Jak znaleźć najlepsze odwzorowanie słownictwa z różnych systemów? Potrzeba semantycznej analizy słownictwa, ale bez efektów i oczekiwanych rezultatów. Tezaurusy powinny komunikować się z taksonomiami poprzez bardzo różne narzędzia przekładowe.
Potrzeba przygotowania standardu wymiany danych - elektroniczne narzędzia kontroli słownictwa wyszukiwawczego - odniesienie się do standardu danych jak Dubin Core lub XML
Standaryzacja metod wzajemnego odwzorowania słownictwa różnych systemów organizacji wiedzy - zapewnienie ich przekładalności (aby różne systemy dało się tłumaczyć na inne - by wzajemnie odwzorowywać słownictwo różnych organizacji wiedzy)
W17 [02.12.2009] - cechy słowników, pole semantyczne, tezaurusy w konkretnych środowiskach
Przygotowania do tworzenia tezaurusa prawa były związane z realizacją koncepcji systemu tezaurusów, opracowanej w Bibliotece Sejmowej. Od lat '90 myślano nad systemem STEBIS (System tezaurusów Biblioteki Sejmowej). Realizacja go było odpoweidzią na potrzeby kancelarii sejmu. Chodziło o opracowanie sprawnego systemu wyszukiwania rzeczowego, uwzględniającego potrzeby czytelników i specyfikę zbiorów Biblioteki Sejmowej. Funkcjonowały różnorodne bazy danych (jak katalog literatury prawniczej). W latach '90 pojawiły się różne inne bazy prawne. Funkcjonował wówczas od lat '70 ośrodek informatyki w strukturze sejmu, odpowiada za funkcjonowanie baz danych.
Wzorem dla tezaurusa prawa był funkcjonujący we wspólnotach europejskich EUROVOC - tezaurus wspólnot europejskich, wykorzystywany przez parlament europejski, urząd wspólnot europejskich. Chciano zorganizować spójność z EUROVOC-iem, choć różne mogły być relacje. Tłumaczenie rozpoczęto w 1993 roku. Rzecz jasna przyglądano się innym językom JIW, ale to EUROVOC zdawał się być najodpowiedniejszy. Wielojęzyczność tego tezaurusa też była jego atutem, stosowany był w wielu bibliotekach parlamentarnych. Możliwość szybkiej aktualizacji tezaurusa, korzystania z baz i indeksów wspólnotowych przesądziło o tym wyborze.
Przed 1993 rokiem EUROVOC był dostępny tylko w wersji drukowanej - należało dostosować go do potrzeb elektronicznych, dorobić odpowiedniki. Wszystko to musiało być poprzedzone testami, które zakończyły się w połowie 1995. Pojawiło się wtedy nowe wydanie EUROVOC-u, znacznie zmienione. Znów kolejne miesiące poszły na wyłapywanie różnic. Pracom tym równolegle towarzyszyły prace związane z indeksowaniem książek. Opracowano kolejne działy, które miały stanowić działy tezaurusa prawa. Wybierano ze zbiorów biblioteki książki do opracowania i testowano całe działy.
Co uzyskano z tych testów?
Wzbogacono tezaurus o deskryptory, których nie było w EUROVOC-u, a były konieczne ze względu na specyfikę Biblioteki Sejmowej
Na etapie testowania nastąpiło uzupełnienie zbioru askryptorów (występujące w piśmiennictwie nazwy synonimiczne)
Rozbudowano system relacji kojarzeniowych.
Tworzono instrukcję indeksowania, która miała w jak największym stopniu formalizować zasady postępowania, związanych z problemami, powstającymi w procesie opracowywania dokumentów. Indeksowanie było trudnym procesem, wymagającym wiedzy o prawie i o indeksowaniu.
Do końca 1995 zakończono poroces sprawdzania zakresu tezaurusa, indeksowano wszystkie nowe książki według deskrryptorów, równolegle tematowane były JHP BN. Chcąc wyjść naprzeciw użytkownikowi, dołączone zostały terminy z pozostałych tezaurusów STEBIS i zgrupowane w dziale „dziedziny pokrewne” - tu np.: nazwy geograficzne.
Jest to słownik dynamiczny - narzędzie stale modyfikowane, udoskonalane w celu jak najlepszego dostosowania do potrzeb użytkownika.
Proces wyszukiwania według tezaurusa: użytkownik może wyszukiwać poprzez terminy proste, łączenie terminów, indeksy proste, tematyczne, wykorzystując terminy obce. Problemy z wyszukiwaniem nadal powstają - jak np. nowe synonimy, których tezaurus jeszcze nie obejmuje.
Podstawowe funkcje pracy nad tezaurusem: kontrola słownictwa języka naturalnego (na którym tezaurus powstał) polega na wyeliminowaniu niekorzystnych zjawisk (takie jak synonimia, quasi-synonimia i homonimia), by nie doszło do ciszy informacyjnej (brak informacji mimo tego, że dokument relewantny istnieje). Dzięki tej kontroli książki relewantne można zaindeksować poprawnie - posługując się np. odsyłaczem. Terminy ustalone jako deskryptory powinny zbierać askryptory zaraz przy haśle. W haśle dołącza się też deskryptory powiązane relacją hierarchiczną (BT/NT) lub kojarzeniową (RT). System podpowiada użytkownikowi, jakich terminów powinien użyć zamiast terminów, które sobie wymyślił. Wspomaganiu użytkownika służy także część systematyczna tezaurusa. Jeśli użytkownik ma problem ze sformułowaniem tematu, może się posiłkować załączonymi uwagami (wyjaśniającymi znaczenie), instrukcjami wyszukiwawczymi). Są też odsyłacze typu „U a OR b” albo „U a AND b”
Tezaurus prawa posiada dwie części:
systematyczną (hierarchiczna) - zawarte są tu tylko deskryptory, użyte do zawartości treściowej książek. Ułożone w porządku logicznym
alfabetyczną - obecne są tu askryptory i deskryptory
Mamy w tezaurusie prawa 3 rodzaje odsyłaczy:
używaj. W tym rozbudowane typu
„U a OR b” (kieruje od zbyt szerokiego do bardziej szczegółowych terminów - np. wydawnictwo kartograficzne U MAPA or ATLAS.
„U a AND b” (kieruje od terminu złożonego do zastępującej go w systemie kombinacji 2 lub więcej deskryptorów - np. roślina chroniona: U OCHRONA ROŚLIN and GATUNKI CHRONIONE. Podpowiada kombinacje właściwe dla danego tematu. Używa się go, gdy użytkownik używa tematu terminu w złożeniu, a w tezaurusie jest koordynacją. To zapora przeciw rozrostowi słownictwa. Inaczej tematy te musiałyby być wyszukane przez sumę. Jakbyśmy w systemie mieli deskryptory ROŚLINY CHRONIONE i ROŚLINY CHRONIONE, to nie dałoby się porządnie wyszukać GATUNKI CHRONIONE).
W18 [09.12.2009] - tezaurus prawa - c.d.
Artykuł deskryptorowy posiada standardową konstrukcję z wyróżnieniem deskryptorów nadrzędnych, podrzędnych, kojarzeniowych oraz standardowe uwagi typu scope note. Układ elementów w artykule deskryptorowym odbiega od tego zalecanego przez normy. Chmielewska-Gorczyca mówi o wygodzie dla użytkownika - terminy węższe i szersze, deskryptorowe są na początku, a odsyłacze przerzucono na koniec artykułu. Deskryptor nadrzędny jest odzwierciedleniem relacji typu rodzaj-gatunek, całość-część. Deskryptor węższy (podrzędny) odzwierciedla strukturę część-całość lub gatunek-rodzaj.
Krótkie uwagi scope note mają za cel wyjaśnienie terminu, ale też wyjaśnienie terminu, który odbiega znaczeniem danej jednostki od znaczenia jednostki w języku naturalnym o tym samym kształcie. Wyjaśniając znaczenie danego deskryptora bierzemy cały kontekst deskryptora - wraz z szerszymi, węższymi, kojarzeniowymi jednostkami.
Np. deskryptor NATO:
SN: Układ polityczno-wojskowy z siedzibą tu i tu, datą powstania, członkach takich i takich itp.
Określeniem jest cały kontekst deskryptora - to jednocześnie terminy szersze (wskazujące rodzaj danej organizacji) - BT: Organizacje międzynarodowe.
Struktura danej organizacji są węższe terminy: NT: Komitet Planowania Narodowego, NT: Rada Północno-Atlantycka
Terminy kojarzeniowe, wskazujące np. cele, powiązania danej organizacji - RT: Bezpieczeństwo międzynarodowe, RT: Siły wielonarodowe.
Wskazanie terminu odbiegającego od ogólnie przyjętego. Np. POŻYCZKA:
SN: rozumiany jako udzielenie kredytu. Dla zaciągnięcia kredytu stosuj ZAPOŻYCZENIE. Uwaga ta sygnalizuje istotne ograniczenie użycia danego terminu.
Dziedziny pokrewne SN: Nie używaj do indeksowania. Szczegółowe informacje znajdują się w odpowiedniej instrukcji indeksowania i wyszukiwania.
Askryptory kierujące do danego terminu to najczęściej formy synonimiczne, ale też terminy, które uznane zostały za zbyt specyficzne - o bardzo wąskim zakresie terminów. Dla potrzeb wprowadzone jako pomoc dla użytkownika, by dotarł do właściwych deskryptorów. Np. DRÓB UF: bażant, kaczka, kura. Dla wygody wprowadzono średnio ponad 5 askryptorów na jeden deskryptor. To dużo. Np. OCHRONA KONSUMENTA - UF: Obrona konsumentów, ochrona praw konsumentów, prawa konsumenta, prawna ochrona konsumenta.
Trzeba zwrócić uwagę na terminy występujące w systemie STEBIS, które stanowią jednocześnie nazwę działu w hierarchicznej budowie tezaurusa. Np. ENERGIA CZYSTA. BT: Energia, Ochrona środowiska, NT: Bioenergia, energia słoneczna, energia wodna. RT: Badania stosowane, czysta technologia, walka z zanieczyszczeniem, zasoby energii. UF: Alternatywne źródło energii, niekonwencjonalne źródło energii. ENERGIA CZYSTA to jednocześnie tytuł działu.
Część systematyczna.
Wszystkie deskryptory są uporządkowane w 4 głównych działach. Dział PRAWO, DZIEDZINY POKREWNE, TEZAURUS ORGANIZACJI MIĘDZYNARODOWYCH, TEZAURUS NAZW GEOGRAFICZNYCH. W stosunku do tezaurusa PRAWO pozostałe stanowią części pomocnicze. W tezaurusie tym zastosowano system ALEPH. Każda z głównych części tezaurusa dzieli się na działy - tam znajdziemy deskryptory z jednej dziedziny i dalej są porządkowane hierarchicznie. Jeśli chodzi o kryterium wyszczególnienia różnych działów, wyszczególniono kryterium pragmatyczne, tak wydzielono tezaurus, by przy wydruku poszczególnych działów nie przekraczało jednej strony - przyjazne dla percepcji użytkownika. Nazwy działów (top terms) są takimi samymi deskryptorami jak inne terminy i też można je wykorzystywać w opracowaniu. Każdy dział ma kody, które pełnią funkcję porządkującą i adresową - wskazują kolejność działów i porządkują deskryptory. Do tego dodano spis alfabetyczny i treściowy (to spis treści - spis działów) - np. 01 PRAWO, 02 ŹRÓDŁA PRAWA, [...] 08 PRAWO KARNE, 08.1 PRZESTĘPSTWO itd...
Deskryptory węższe w danym dziale są najczęściej w porządku alfabetycznym. Wyjątek stanowią te deskryptory węższe, wśród których zostały wydrębnione różne fasety (podgrupy wyróżnione według różnych kryteriów podziału). Stanowią odrębne ciągi alfabetyczne drukujące deskryptory jednego rodzaju. Np. TRANSPORT - RODZAJ TRANSPORTU - TRANSPORT MIĘDZYNARODOWY, TRANSPORT MIĘDZYGRANICZNY, TRANSPORT LĄDOWY itd.
Tezaurus prawa to narzędzie o strukturze polihierarchicznej, czyli jeden deskryptor może mieć wiele nadrzędnych deskryptorów - np. KONSTYTUCJA: BT: PRAWO KONSTYTUCYJNE, BT: ŹRÓDŁA PRAWA. Polihierarchiczność pozwala nam znaleźć terminy z więcej niż jednej grupy tematycznej. Konsekwencją jest wielokrotne występowanie tego terminu w wykazie systematycznym. Np. PRAWO KONSTYTUCYJNE: BT: ŹRÓDŁA PRAWA, BT: KONSTYTUCJA. A przecież ŹRÓDŁA PRAWA było już nadrzędne dla KONSTYTUCJI. Wszystkie terminy węższe też powinny być podane, acz powstawałyby długie ciągi w wielu miejscach. Dlatego autorzy podają pełną rozbudowę tylko w jednym, wybranym dziale. PRAWO OCHRONY ŚRODOWISKA: NT: ŚRODKI OCHORNY ROŚLIN itd. Terminy węższe są najściślej powiązane z tym działem.
Inne tezaurusy.
Europejski Tezaurus Stosunków Międzynarodowych i Studiów Regionalnych. Narzędzie to wykorzystywane jest w PISM (Polskim Instytucie Spraw Międzynarodowych). Zbiory instytutu i biblioteki pism są opisywane za pomocą wielojęzykowego tezaurusa. Są 24 działy tematyczne, 9000 jednostek. Np. Bezpieczeństwo międzynarodowe/Wojskowość. W założeniu tezaurus ma obejmować 10 wersji językowych w tym polski. Poprzez katalog biblioteki obecnie można wyszukiwać w 5 językach, ale nad resztą trwają prace.
Tezaurus z dziedziny bezpieczeństwa pracy: Bezpieczeństwo pracy i ergonomia utrzymywany jest przez Centralny Instytut Ochrony pracy - Państwowy instytut badawczy. Tezaurus ten jest spójny (zintegrowany) z ILO (Intenational Labor Organization).
Tezaurus europejskiej agencji bezpieczeństwa i zdrowia w pracy powstał w wersjach językowych Unii Europejskiej.
Europejski Tezaurus Edukacyjny: 1998 - powstał w ramach programu edukacyjnego Eurydice. To wielojęzyczny tezaurus edukacyjny z publikacją w Internecie.
Polski tezaurus dla dziedzictwa kulturowego powstał w 2007 na Uniwersytecie Wrocławskim. Ma udostępnić wielojęzykowy polihierarchiczny opis pojęć z dziedziny sztuki i architektury. Acz pojęcie „dziedzictwo kulturowe” jest bardzo nieostre i stanowi to od początku przeszkodę. Potraktowano to jako pierwszy etap polskiej praktyki konserwatorskiej i muzealnej. W różnych instytucjach bowiem powstają różne cyfrowe listy, słowniki wielobazowe, ale nie ma ciągle narzędzia umożliwiającego spójność systemu.
W19 [16.12.2009] - JIW w kontekście systemów organizacji wiedzy w środowisku sieciowym
Organizacja wiedzy (knowledge organisation) - ogromna zasługa w tym zakresie należy do Henry'ego Blissa. W 1933 roku opublikował pracę dotyczącą organizacji wiedzy w bibliotekach. Zwracał uwagę na uporządkowanie kolekcji bibliotecznej, co miało zapewnić dostęp do zawartości wiedzy, przechowywanej w tej kolekcji. Od '33 do dziś minęło 76 lat - przez dziesiątki lat pojęcie to występowało często w pracach naukowych. Swoisty renesans terminu Blissa nastąpił w latach '80 XX w. Zwrócić trzeba uwagę na kilka czynników - wśród nich
Działania związane z uniwersalizacją metod, wypracowanych na gruncie bibliotekarstwa i bibliografii.
Następnym czynnikiem było coraz większe zainteresowanie problematyką metod dostępu do informacji w środowiskach pozabibliotecznych. Zwłaszcza zainteresowani byli specjaliści z informatyki, zarządzania biznesem.
Interdyscyplinarność - jeśli chodzi o kształtowanie metodologii - wykorzystywanie doświadczeń różnych dziedzin
Od wielu lat funkcjonuje również w Polsce International Society of Knowledge Organisation (ISKO) - przedstawiciel Wiesław Babik. Mamy 3 ośrodki - jeden z nich jest w Katowicach na naszym wydziale. Organizacja ta działa już 20 lat. Celem ej jest wypracowanie metod i narzędzi związanych z konceptualnym porządkowaniem wiedzy. Konieczne są narzędzia zarządzania treścią. Narzędzia te migrują do sieci komputerowych - w środowisku bilbiotekarskim i informacyjnym
Systemy organizacji wiedzy (Knwledge Organisation System) - to różnego typu schematy porządkowania informacji, które mają ułatwiać zarządzanie wiedzą w zróżnicowanym środowisku sieciowym i tradycyjnym dla różnych celów. Mamy do czynienia z bardzo niejednorodnym systemem wykorzystywanych narzędzi. Narzędzia te posiadają różny stopień szczegółowości, wykorzystywane są przez różnych specjalistów z różnych dziedzin. Naturalnie przejmują charakter i specyfikę dziedziny, do której są wykorzystywane.
Tworzenie bibliotek cyfrowych wiąże się z opracowywaniem systemu informacji cyfrowej. Informacja musi być jakoś uporządkowana. Najbardziej relatywne systemy są widoczne w systemach Internetowych, serwisach informacyjnych różnych instytucji itp. Choćby projekt semantycznego Web-a.
Czym jest dostęp do zasobów cyfrowych? Wykazy tematyczne służą pomocą na etapie wyszukiwania. Środowisko sieciowe tworzy system integrujący różne systemy organizacji wiedzy. Mogą to być np. wykazy znormalizowanego słownictwa, nazewnictwa - np. urzędowy wykaz leków czy różne słowniki terminologii specjalistycznej. Mamy też schematy klasyfikacyjne o charakterze specjalistycznym - ujednolicone, ustandaryzowane klasyfikacje gospodarcze (jak Polska Klasyfikacji Działalności i Usług albo Międzynarodowa Klasyfikacja Procedur Medycznych) - są to różne systemy organizacji wiedzy - specyficznej dla swojej dziedziny. Powstają różnego rodzaju systemy organizacji wiedzy. Mamy rozmaitość zasobów - widać to na przykładzie korporacyjnych serwisach firmowych (obejmujących wiele firm - dba się tam o zarządzanie wiedzą i informacją. Zatrudnieni są nawet projektanci, określający struktury komunikacyjne, wpływające na efektywną komunikację - jest wiele specjalistycznych klasyfikacji, schematów kategoryzacyjnych itp.). Zarządza się odpowiednim zakresem informacji - zależnym od tego, czym firma się zajmuje. Charakterystyczne kategorie gromadzonej informacji. Tworzone są przeróżne schematy klasyfikacyjne. Na potrzeby Intranetu implementowane są bardzo złożone systemy organizacji wiedzy. Przede wszystkim są to rozbudowane taksonomie, ontologie (które wyrastają z koncepcji semantycznego WEB-a).
Nowe koncepcje organizacji wiedzy, które służą selekcjonowaniu i porządkowaniu zasobów informacyjnych w sieci, widoczne są bardzo w projekcie semantycznego WEB-a. Odwołać się trzeba do idei Tima Bernersa-Lee (CERN). System WWW miał stanowić globalną sieć komputerową w automatycznie interpretowanej formie. Nikt nie przypuszczał wtedy, w jakim kierunku się to wszystko rozwinie. Opinie są podzielone jeśli chodzi o możliwość realizacji globalnej sieci semantycznej. Entuzjaści twierdzą, że semantyczny WEB jest w zasięgu ręki już dzisiaj.
Zastosowane narzędzia organizacji wiedzy. Zwrócić trzeba uwagę na systemy klasyfikacyjne - takie jak KDD czy UKD, klasyfikacja Biblioteki Kongresu. Projektanc bibliotek cyfrowych też wykorzystują systemy klasyfikacyjne, acz nierzadko czerpią inspirację ze schematów kategoryzacji komercyjnych (różnych systemów internetowych). Systemy organizacji wiedzy mają często charakter lokalny - choć tworzone są i takie, które służą szerszej społeczności (internetowe serwisy informacyjne).
Do końca lat '90 w systemach organizacji wiedzy panował spory chaos terminologiczny. W 1999 zorganizowano spotkanie seminaryjne, zorganizowane przez NISO. Rozważano problemy i możliwości protokołu Z39.19 z 1993. W wersji zrewidowanej w 1998 nie spełnia oczekiwań twórców serwisów elektronicznych. Konieczne było przystosowanie do aktualnych potrzeb. Podkreślano konieczność wykorzystania standardów takich jak Dublin Core.
Przegląd typów systemów organizacji wiedzy. W każdym wypadku mamy do czynienia z uporządkowanymi zespołami wyrażeń, które składają się na pewną semantyczną wiedzę z określonej dziedziny (ograniczony przez zakres tematyczny porządkowanych informacji). Bierze się pod uwagę stopień i sposób uporządkoania wiedzy - strukturyzacja wiedzy dziedzinowej. Wykorzystywane są różne rozwiązania - np. różne schematy organizacyjne - często niejednoznaczne, które nawiązują do teorii i metodologii opracowania rzeczowego. Tworzone są różne układy rzeczowe i przedmiotowe.
Najczęściej podstawą uporządkowania jest układ alfabetyczny, rzadziej chronologiczny lub geograficzny. Najczęściej wykorzystuje się nazwy i wyrażenia znane danemu użytkownikowi.
W20 [13.01.2010] - różne narzędzia wyszukiwawcze, typy systemów organizacji wiedzy
Widzimy uporządkowane zbiory wyrażeń, reprezentujących pojęcia, które tworzą pewną semantyczną wiedzę z danej dziedziny. Zakres wiedzy determinuje zakres tematyczny z zasobów informacji, które chcemy porządkować. Jak rozróżniać typy systemów organizacji wiedzy? Odnosząc to do środowiska tradycyjnego (ze zbiorami dokumentów) jak i do środowiska sieciowego, bierze się pod uwagę:
Stopień i sposób uporządkowania wyrażeń - jaka została przyjęta metoda strukturyzacji wiedzy w danej dziedzinie.
Na sposób uporządkowania wpływają określone narzędzia:
Porządek formalny
Podział w danej dyscyplinie
2 podstawowe systemy organizacji wiedzy:
Dokładne schematy organizacyjne
Wykorzystują formalne metody porządkowania wyrażeń - tematy lub pojęcia. Każde z wyrażeń wyznacza klasę, która z założenia ma jednoznacznie identyfikować określone obiekty lub określoną treść. Zakres każdej klasy jest rozłączny wobec klas pozostałych. Najczęściej stosowany układ: alfabetyczny, rzadko chronologiczny czy geograficzny. Zapewniają takie systemy łatwy dostęp do informacji (bo posługują się nazwami autorów, obiektów, tytułów publikacji etc.). Porównując te schematy do katalogów przedmiotowych, widać pewne podobieństwo - jedno i drugie nie pozwala na całościowe zapoznanie się z zawartością zasobów informacyjnych.
Niejednoznaczne schematy organizacyjne
Zaliczamy do nich systemy, które dzielą informację na grupy tematyczne (klasy, kategorie). Uporządkowane są na podstawie kryteriów semantycznych. Są to różnego rodzaju odmiany i warianty struktur hierarchicznych, w których klasy są wyrażane przez wyrażenia naturalne. Większość cechuje niejednoznaczność.
Metody organizowania wiedzy (np. w bibliotekach cyfrowych): 3 grupy narzędzi:
Wykazy słownictwa
Struktury hierarchiczne
tezaurusy
Podział struktur relacyjnych za podstawę przyjmuje podział relacji i ich liczbę.
Monorelacyjne (wykorzystują jedną relację do budowy drzewa)
Polirelacyjne (wykorzystują kilka)
Listy terminów: zredukowane tylko do wykazu pojęć synonimicznych, nie ma wykazów relacyjnych.
Bardziej złożoną strukturą są struktury hierarchiczne. Terminy lub symbole (i reprezentowane pojęcia) są łączone w wielopoziomowe gniazda tematyczne. Związek hierarchiczny jest tym podstawowym, głównym związkiem, który konstytuuje organizację wiedzy. W strukturach mamy możliwą:
Monohierarchię - klasyczne rozumienie wyrosłe na gruncie klasyfikacji piśmiennictwa
Polihierarchię - organizacja elementów uniwersum w więcej niż jednym układzie hierarchicznym. Wielokrotne przyporządkowanie grup węższych zagadnieniom o szerszym zakresie. Możliwe są do budowania „krzyżowe zależności hierarchiczne” /polipozycyjność/
Najbardziej rozbudowany system organizacji wiedzy realizują systemy, w których wyrażenia określając bogaty zestaw relacji asocjacyjnych. Mamy tu grupę wyrażeń pozwalając na wieloaspektową nawigację w zasobach sieciowych. Klasa takich systemów organizacji wiedzy jest dość różnorodna i oznacza czasem różne rodzaje relacji, ale nie ma ścisłej identyfikacji.
Listy terminów należą do tekiego typu systemów organizacji wiedzy, które są często wykorzystywane jako zbiory słownictwa kontrolowanego:
Kartoteki Haseł Wzorcowych - listy terminów, wykorzystywanych w kontroli nazw, odnoszących się do tych samych desygnatów (nazwy państw, nazwy osób, nazwy organizacji). Najczęściej: prosta składnia, płytka organizacja. Przykład: Centralna Kartoteka Haseł Wzorcowych. Wykaz Authority File of Library
Glossariusze - słownik specjalistyczny; lista terminów, które należą do wąskiej specjalności. Zazwyczaj terminom tym towarzyszą definicje. Mogą to być terminy zaczerpnięte z danej dziedziny. Przyład: Glossariusz internetowy „Zrozumieć negocjację”, słowniki w wyszukiwarkach internetowych
Słowniki i indeksy nazw geograficznych
Wyróżniają się układem formalnym zgromadzonego słownictwa.
Klasyfikacja kategoryzacji i taksonomia
Mamy do czynienia z drugą grupą systemów organizacji, które charakteryzują się bezpośrednim oznaczaniem związków hierarchicznych między pojęciami reprezentowanymi przez symbole klasyfikacyjne. Podporządkowana jest temu projekcja organizacji wiedzy. Stosuje się takie nazwy jak klasyfikacja, kategoryzacja, taksonomia. Nierzadko stosuje się je zamiennie. Sosińska-Kalata mówi o różnicach między tymi pojęciami. Najważniejsza konstytutywna własność tych systemów, które należą do tej grupy, jest organizowanie pojęć w szerszych grupach tematycznych. Te szersze grupy są poddawane dalszym, wielostopniowym podziałom - dzięki temu zbiory podlegają segmentacji na coraz węższe klasy.
Występują tu systemy, które charakteryzują się hierarchicznym uporządkowaniem pojęć - reprezentowane jest to np. przez symbole. Proste układy hierarchiczne i wieloaspektowe układy polihierarchiczne. Najlepszymi przykładami takiej organizacji wiedzy są tradycyjne klasyfikacje biblioteczno-bibliograficzne w środowisku tradycyjnym i sieciowym: np. KDD, UKD, KBK itp.
Do systemów hierarchicznych zaliczany jest podział, wykorzystujący hasła przedmiotowe - mamy tu możliwość wyodrębnienia kategorii tematycznych, szeregowanych potem alfabetycznie. /klasyfikacje przedmiotowe - klasy najogólniejsze są identyfikowane przez klasyfikowany przedmiot/
Zauważamy bardzo dużą popularność kategoryzacji, które wykorzystywane są w kontekście hierarchicznym układów nazw grup tematycznych. Kategoryzacja jest podobna do podziału za pomocą haseł przedmiotowych.
S