Semiotyka – to nauka o znakach i systemach znakowych tworzących język. Zajmuje się rodzajami, właściwościami i funkcjami znaków. Obejmuje swym zakresem semantykę, syntaktykę i pragmatykę.
Przedstawiciele: Umberto Eco, Charles Sanders Pierce, Ferdynand de Saussure
Semantyka – jest to nauka zajmująca się badaniem związków, jakie zachodzą między znakiem, a rzeczywistością, do której znak się odnosi. Semantyka zajmuje się problematyką znaczenia wyrażeń.
Przedstawiciele: H. Paul, A. Millet, M. Breal
Pragmatyka – dział językoznawstwa, którego przedmiotem są społeczne i sytuacyjne warunki funkcjonowania języka.
Gramatyka – zbiór reguł określających system zasady budowy i odmiany wyrazów oraz reguł składni danego języka. W zakres gramatyki wchodzą takie dziedziny jak fonologia, składnia, morfologia. Wyróżnia się gramatykę opisową i historyczno porównawczą.
Semiologia – teoria badająca wpływ znaków na porozumiewanie się ludzi, obejmuje semantykę, syntaktykę i pragmatykę.
Językoznawstwo – dział nauk humanistycznych, bada istotę, budowę i rozwój języka.
Działy językoznawstwa (przykłady, bo jest ich w cholere dużo):
Dialektologia
Etymologia
Fonologia
Frazeologia
Leksykologia
Pragmatyka
Semantyka
Semiotyka
Słowotwórstwo
Syntaktyka
Język – to zespół społecznie wytworzonych i obowiązujących znaków poza dźwiękowych (wtórnie pisanych) oraz reguł określających ich użycie, funkcjonujący jako narzędzie komunikacji społecznej.
Kod – ścisłe przyporządkowanie elementów jednego zbioru (najczęściej znaków, nazw, liter) elementom drugiego zbioru (najczęściej sygnałom)
Szyfr – ciąg liczb i/lub innych symboli stanowiących kod dostępu. Zapis tekstu za pomocą systemu znaków umownych, stosowany w celu zatajenia treści.
Funkcje języka:
Funkcja ekspresywna
Funkcja impresywna
Funkcja fatyczna
Funkcja poetycka
Funkcja metajęzykowa
Funkcja meta informacyjna
Funkcja opisowa
Relacje w języku:
Relacje paradygmatyczne – skojarzeniowe, tkwiące w świadomości mówiących (np. biały-biel-bielić)
Relacje syntagmatyczne – kontekstowe, istniejące w tekście (np. biały-śnieg, bielić ścianę)
Znak – to co informuje o czymś poprzez wywołanie odpowiednich skojarzeń.
Podział znaków:
Naturalne (opierać się mogą na relacji przyczynowo – skutkowej lub szerzej – na relacji faktycznej przyległości) o Symptomy (znaki jednostronne) o Obrazy (znaki dwustronne)
Konwencjonalne (opierają się na konwencji, umowie istniejącej między członkami jakiejś wspólnoty komunikatywnej)
Ze względu na zmysły:
Wzrokowe
Sygnały słuchowe (Sygnały głosowo-słuchowe, Sygnały instrumentalno-słuchowe)
Dotykowe
Powonieniowe
Smakowe
Poziomy znaków języka naturalnego
POZIOM | ZNAK PROSTY |
|
FORMA ZNACZENIOWA |
|
---|---|---|---|---|
Fonetyczny | Elementarna cecha fonetyczna |
|
Nie |
|
Fonem |
|
Nie |
|
|
Morfologiczny | Morfem |
|
Tak |
|
Leksykalny | Wyraz |
|
Tak |
|
Fraza (syntagma) |
|
Tak |
|
|
Syntaktyczny | Zdanie |
|
Tak |
|
Teksu | Tekst |
|
Tak |
|
Cechy znaków językowych:
Arbitralność języka wiąże się z jego konwencjonalnością i oznacza, że między formą a treścią znaków brak związku naturalnego
Semantyczność polega na tym, że znaki językowe odsyłają odbiorcę do jakichś zjawisk otaczającego świata. Semantyczność języka to abstrakcyjność jego znaków.
Dwustopniowość struktury oznacza, że język jest zorganizowany na dwóch poziomach: jeden tworzą elementy nie obdarzone znaczeniem, drugi – jednostki znaczące.
Autonomiczność języka to możliwość posługiwania się językiem dla mówienia o sprawach odległych w czasie i przestrzeni.
Kreacyjność polega na tym, że człowiek może mówić o wszystkim o czym zechce.
Funkcje znaków/systemów znakowych:
Komunikatywna
Semantyczna
Informacyjna
Reprezentatywna
Przedstawieniowa
Referencyjna
Znaczenie w języku:
Znaczenie jest to relacja słowna do świata, do zewnętrznej pozajęzykowej rzeczywistości. Znaczeniem jest odniesienie ogólne, czyli relacja między słowem, a przedmiotem czy zjawiskiem jednostkowym. Znaczenia ukazują w jaki sposób postrzegamy i oceniamy elementy świata, do których te słowa się odnoszą.
Rodzaje znaczeń w języku:
a) Etymologiczne
Realne (aktualne)
Leksykalne
Strukturalne
Okazjonalne Podstawowe
Kontekstowe
Nazwa – wyraz lub kilka wyrazów oznaczających kogoś lub coś Typy nazw:
Nazwy pospolite (dotyczą typowych jednostek systemu leksykalnego, mających znaczenie, które odpowiada którejś z klas pojęciowych)
Nazwy własne (nie mają znaczenia leksykalnego, są określeniami jednostkowymi, są określeniami pojedynczych, niepowtarzalnych przejawów naszej rzeczywistości)
Plan treści – materiał znaczeniowy wypowiedzi
Plan wyrażania – to sposób organizowania materiału językowego w wypowiedzi literackiej
Pole semantyczne – struktura zbudowana ze znaczeń (treści), jakie można wyrazić w danym języku za pomocą środków (relacji), którymi ten język dysponuje. Pole semantyczne ma zakres (np. wszystkie stworzenia, którym można przyporządkować jakąś nazwę) i treść (cechy pewnych obiektów, zbiór cech).
Denotacja (zakres, ekstensja) – zbiór tych elementów rzeczywistości (desygnatów), którym zgodnie z regułami semantyki danego języka można przyporządkować daną nazwę lub wyraz. Denotacją nazwy „kot” jest zbiór wszystkich (przeszłych, obecnych i przyszłych) kotów.
Konotacja (treść, intencja) – treść nazwy, czyli taki zespół cech elementów rzeczywistości, na podstawie których można przyporządkować mu zgodnie z regułami semantyki danego języka dana nazwę, wyrażenie. Cechy mogą być konstytutywne i charakterystyczne.
Polisemia – wieloznaczność językowa, zjawisko, w którym jedno słowo ma więcej niż jedno znaczenie
Synonimia – bliskoznaczność wyrazów
Homonimia – właściwość wyrazów, polegająca na tym, że brzmią jednakowo, mając różne znaczenia
Antonimia – przeciwstawność znaczeń wyrazów (np. ciepły-zimny)
Język sztuczny – język w znaczeniu, który został przez kogoś celowo zbudowany; konstrukcja języka sztucznego zawsze poprzedza jego użycie. Synonim: język formalny. Np. język rachunku zdań, język strukturalnych wzorów chemicznych, język esperanto.
Jak wyżej, Język sztuczny=język formalny
System leksykalny – struktura językowa zbudowana z wykładników językowych znaczeń
(wyrazów, leksemów), które można wyrazić w danym języku za pomocą środków, którymi ten język dysponuje.
System słownikowy każdego języka naturalnego ma budowę luźną. Oznacza to, że wyrażenia nie dają się ułożyć w jedno drzewo klasyfikacyjne.
Metajęzyk – dowolny język służący do opisu innego języka.
Metainformacja – informacja o informacji (np. katalogi, słowniki, rejestry, materiały informacyjne, przewodniki, poradniki)
Język informacyjno – wyszukiwawczy – jest systemem sztucznym, zbudowanym celowo dla potrzeb optymalizacji reprezentacji istotnych elementów treści i/lub formy dokumentów w systemie informacyjno-wyszukiwawczym i zapewnienia ich formalnego odnalezienia w odpowiedzi na zapytanie informacyjne użytkownika.
Sztuczny system językowy, którego wyspecjalizowanymi funkcjami są funkcja meta informacyjna i wyszukiwawcza.
Funkcje JIW:
Funkcja impresywna (apelatywna) = funkcja wyszukiwawcza
Funkcja meta informacyjna – wyspecjalizowana funkcja opisowa JIW, polegająca na odwzorowaniu cech treści i/lub formy dokumentów
Funkcja wyszukiwawcza (heurystyczna) – wyspecjalizowana funkcja impresywna
(imperatywna, apelatywna) jiw polegająca na sterowaniu procedurami wyszukiwania informacji o dokumentach i cechach treści i/lub form wskazanych przez użytkownika
Funkcje wtórne JIW:
Funkcja organizująca (porządkująca) – zapewnia strukturalizację zbioru informacyjnego, ułatwiająca selekcję określonych opisów dokumentów
Funkcja opisu zbiorów dokumentów (informacji) i/lub wyznaczania zakresów półsemantycznych JIW (realizowana przez podgrupę JIW takich jak klasyfikacje szczytowe i nadrzędne języki deskryptorowe operujące makrotezaurusami.
Poziomy znaków JIW – określają stopień złożoności znaku w strukturze języka oraz związaną z nim funkcję.
|
|
|
|
||
---|---|---|---|---|---|
|
|
|
|
||
|
|
|
Znaki bazy
|
|
typu |
|
|
|
(główne i
|
|
|
|
|||||
|
|
Składniki tekstu | Symbole klasyfikacyjne tematów | Budowy symboli dokumentów |
|
|
|
Symbole klasyfikacji dokumentów |
System notacyjny – to baza notacyjna (alfabet) + reguły notacyjne
Baza notacyjna – zbiór elementarnych znaków graficznych, za pomocą których tworzone są wyrażenia JIW
Reguły notacyjne – zasady łączenia elementarnych znaków graficznych w ciągi stanowiące elementarne jednostki leksykalne JIW
Elementarnymi znakami graficznymi JIW mogą być:
Litery pewnego języka etnicznego
Cyfry arabskie
Znaki notacji matematycznej, logicznej, znaki interpunkcyjne
Powinny być: łatwe w zapisie, dostępne w standardowej klawiaturze, wyposażone w określoną wartość porządkową
Podstawowe rodzaje systemów notacyjnych:
Podział wg typu alfabetu:
Notacja jednorodna
Notacja mieszana
Notacja alfabetyczna
Notacja numeryczna
Notacja specjalna
Podział wg cech strukturalnych:
Notacja liniowa
Notacja strukturalna
Notacja hierarchiczna
Notacja składnikowa
Notacja retroaktywna
Notacja znaków skróconych
c) Podział wg cech mnemotechnicznych
Notacja nie mnemotechniczna
Notacja mnemotechniczna
Podział leksykalny
Elementarna jednostka leksykalna to wyraz (wyrażenie proste) JIW, czyli najmniejsza jednostka JIW pełniąca funkcję semantyczną.
Zbiór EJL stanowi słownictwo JIW.
Rodzaje EJL i słownictwo JIW wyróżnia się ze względu na ich cechy:
Wyrażeniowe, czyli formę zapisu
Semantyczne, czyli znaczenie – funkcję znaczeniową w opisie dokumentów
Syntaktyczne, czyli funkcję pełnioną w zdaniu JIW
Podstawowe typy EJL:
Podział ze względu na formę wyrażeniową:
Słownictwo para naturalne (quasi naturalne) - derywowane ze słownictwa języka naturalnego; najczęściej przyjmuje postać prostych lub rozwiniętych fraz nominalnych; np. naturalne nazwy klas ANATOMIA, PTAKI
Słownictwo sztuczne – kody sztuczne; najczęściej przyjmuje postać numerycznych, alfabetycznych lub alfanumerycznych symboli pojęć (klas) elementarnych wyodrębnionych w polu semantycznym JIW, np. symbole klasyfikacyjne klas głównych i pomocniczych 611, 598.2, 621.43
Podział ze względu na funkcję semantyczną w opisie dokumentów:
Słownictwo podstawowe – zbiór podstawowych jednostek leksykalnych przeznaczonych do wyrażania podstawowych elementów treści dokumentu, najczęściej przedmiotu głównego, drugorzędnego lub potocznego, np. symbole główne UKD.
Słownictwo pomocnicze – zbiór pomocniczych jednostek leksykalnych przeznaczonych do wyrażania drugorzędnych charakterystyk dokumentu np. aspektu, lokalizacji czasowo – przestrzennej, formy dokumentu, relacji zachodzących między wyrażeniami reprezentującymi podstawowe elementy treści, np. symbole podziałów wspólnych i analitycznych UKD, znaki łączące.
Typy słowników JIW
Wg zasad prezentacji przekładu z języka naturalnego na JIW:
Słownik explicite – jednoznacznie wskazujący przyporządkowanie EJL JIW określonym wyrażeniom naturalnym stanowiącym nazwy elementów treści lub cech formalnych dokumentów; wg niektórych teoretyków JIW klasę tę reprezentują wyłącznie tezaurusy (słowniki języków deskryptorowych);
Słownik implicite – wymagające od użytkownika samodzielnego ustalenia związku między wyrażeniami naturalnymi opisującymi elementy treści i cechy formalne dokumentu a odpowiadającymi im wyrażeniami JIW; do klasy tej zalicza się większość słowników JIW o słownictwie kontrolowanym, w tym tablice klasyfikacyjne.
Wg zasad porządkowania wykazu EJL:
Słownik dodatni – wykaz EJL, za pomocą których buduje się zdania JIW o słownictwie kontrolowanym; w językach klasyfikacyjnych przyjmuje postać tablic klasyfikacyjnych.
Słownik ujemny – wykaz wyrażeń, których nie wolno stosować do tworzenia zdań JIW; wykorzystywany w językach o para naturalnym słownictwie niekontrolowanym (tzw. języku swobodnych słów kluczowych).
Słownik zadany instrukcją – zbiór reguł wyznaczających podzbiór wyrażeń języka naturalnego, które wolno stosować jako EJL o niekontrolowanym słownictwie para naturalnym.
Organizacja systemu leksykalnego JIW
Pole semantyczne JIW – suma znaczenia wszystkich wyrażeń JIW; zbiór wchodzących we wzajemne relacje pojęć, które można wyrazić w danym JIW
Struktura pola semantycznego JIW wyznaczana jest przez 3 elementy:
Sieć paradygmatycznych relacji semantycznych
Kategoryzację semantyczną EJL
Podział dyscyplinarny EJL
Relacje w JIW:
Paradygmatyczne (relacje systemowe, słownikowe), tego typu relacje występują w słownikach JIW. Relacje zachodzące między elementami języka (słownika)
Syntagmatyczne (relacje tekstowe) – są to relacje zachodzące między elementami tekstów języka
Relacje paradygmatyczne w JIW:
Relacja synonimii
Relacja hierarchiczna
Relacja generyczna
Relacja merologiczna
Relacja hierarchii tematycznej
Relacja kojarzeniowa
Podział relacji, ze względu na rzeczywistość, której dotyczą:
Relacje językowe
Relacje pozajęzykowe
Kategoryzacja semantyczna – podział słownictwa na kategorie semantyczne
Podział dyscyplinarny – podział pola semantycznego JIW na obszary odpowiadające dyscyplinom nauki lub działom działalności praktycznej, do których kwalifikowane są pojęcia reprezentowane przez EJL
Relacja syntagmatyczna – relacja między wyrażeniami prostymi w strukturze wyrażenia złożonego
Rodzaje relacji syntagmatycznych:
Syntagmatyczne relacje współwystępowania (konkurencji), odpowiadające znaczeniem spójnikowi „i”
Syntagmatyczne relacje zależności semantycznej specyfikowanej lub niespecyfikowanej, odpowiadające znaczeniem takim spójnikom jak „a”, „wobec” etc.
Wykładniki relacji syntagmatycznych:
Wskaźniki więzi – symbole cyfrowe lub literowe stosowane na oznaczenie relacji występujących pomiędzy jednostkami leksykalnymi tworzącymi tekst JIW.. wskaźniki więzi zapobiegają błędnej koordynacji jednostek leksykalnych tworzących daną charakterystykę dokumentu.
Wskaźniki wagi – ich zadaniem jest określenie w jakim stopniu dana jednostka leksykalna wchodząca w skład charakterystyki wyszukiwawczej wyraża treść dokumentu.
Wskaźniki roli – są wykładnikami językowymi relacji dotyczących funkcji lub roli jednostek leksykalnych występujących w tekście danego dokumentu.
Algebra Boole’a
Znaki łączące jak w UKD: ;,:.+/- ip.
Gramatyka JIW – zespół zasad łączenia ze sobą EJL w strukturze zdania JIW i zachodzących między nimi relacji syntagmatycznych
Typy gramatyki JIW:
Gramatyka zerowa – jedyną regułą gramatyczną jest reguła o nieodłączaniu tj. reguła tworzenia zdań jednowyrazowych.
Każda EJL stanowi samodzielną charakterystykę dokumentu lub instrukcję wyszukiwawczą; nie dopuszcza się możliwości łączenia EJL w wyrażenia bardziej złożone; brak wykładników relacji syntagmatycznych.
Gramatyka ta w formie czystej jest stosowana już tylko w klasycznych wyliczających klasyfikacjach bibliotecznych
Gramatyka pozycyjna – reguły jednoznacznie określające szyk EJL w strukturze zdania. Pozycja EJL w zdaniu jest wykładnikiem jej relacji syntagmatycznych wobec pozostałych EJL współwystępujących z nią w tym zdaniu; zmiana szyku może prowadzić do zmiany znaczenia zdania.
Stosowane są dwie odmiany tej gramatki:
Gramatyka pozycyjna ze stałą długością zdania (tzw. indeksowanie ankietowe, rastorowe lub fasetowe w językach deskryptorowych i klasyfikacjach fasetowych)
Gramatyka pozycyjna ze zmienną długością zdania (np. struktura hasła przedmiotowego rozwiniętego lub symbolu rozwiniętego UKD) Filozofia – historia (historia filozofii)
Historia – filozofia (idee filozoficzne, które pojawiły się w historii)
Gramatyka nie pozycyjna – dopuszcza dowolny szyk EJL w zdaniu
Jedyną regułą gramatyczną jest reguła dołączania (konkatenacji). Jedyną relacją syntagmatyczną jest reguła kookurencji, czyli współwystępowania EJL w zdaniu w dowolnej kolejności. Interpretacja znaczeniowa każdej EJL jest niezależna od kontekstu. Każda EJL jest samodzielnym kluczem wyszukiwawczym.
Klasycznym przykładem gramatyki nie pozycyjnej jest gramatyka stosowana najczęściej w językach deskryptorowych, językach słów kluczowych, określana jako indeksowanie współrzędne (koordynacyjne).
Gramatyka częściowo pozycyjna - gramatyka wyznaczająca stały szyk EJL w strukturze fraz typu:
„ samodzielna EJL – niesamodzielna EJL” I swobodny szyk fraz typu:
„samodzielna EJL – samodzielna EJL” Ten typ gramatyki cechuje UKD.
Reguły gramatyki JIW odpowiadają na pytania:
Jaka jest najmniejsza i największa liczba EJL tworzących zdanie
Jakie EJL mogą samodzielnie tworzyć zdanie, a jakie mogą się powtarzać
Czy są jakieś EJL, które zawsze muszą występować w zdaniu
Czy istnieje jakiś określony porządek w układzie EJL
Czy istnieją zasady korelacji między EJL w zdaniu
Relacje w JIW:
Relacje synonimii wyszukiwawczej
Relacja hierarchiczna
Relacje generyczne
Nadrzędności
podrzędności
Relacje merologiczne
Nadrzędności
podrzędności
Relacje hierarchii tematycznej
Nadrzędności
Podrzędności iii.
Relacje współrzędności
Relacje kojarzeniowe
Relacje syntagmatyczne
Pragmatyka JIW – dziedzina teorii, która zajmuje się problemami dotyczącymi posługiwania się tymi językami, a więc stosowania ich w opisie dokumentów, a także do wyszukiwania dokumentów.
Rodzaje pragmatyki JIW:
Ogólna – zbiór zasad posługiwania się JIW lub danym typem JIW; ma dwa działy:
Pragmatyka indeksowania dokumentów o Pragmatyka wyszukiwania dokumentów
Szczegółowa – dotyczy zasad posługiwania się konkretnym językiem, np. UKD o Wykorzystanie danego JIW w opisie dokumentów
Wyszukiwanie dokumentów w konkretnym języku
Indeksowanie (szerokość indeksowania i szczegółowość indeksowania zwana też głębokością) – czynność sporządzania tekstu w danym JIW czyli charakterystyki słownej, treści dokumentu a także jej przekładu na wybrany JIW. W wyniku takiego przekładu otrzymujemy dok. w postaci charakterystyki wyszukiwawczej zapytania.
Szerokość indeksowania – odpowiada na pytanie w jakim stopniu została odzwierciedlona (jako pokrywa się) treść dokumentu w charakterystyce wyszukiwawczej tego dokumentu. Szerokość indeksowania rośnie wraz z liczbą uwzględnionych w charakterystyce wyszukiwawczej dokumentu tematów. (im więcej tematów tym szerokość jest większa).
Szczegółowość indeksowania – jest to stopień uogólnienia (szczegółowości) jednostek leksykalnych użytych w indeksowaniu do tworzenia tekstów danego dokumentu. Głębokość rośnie wraz z liczbą jednostek leksykalnych użytych w tekście JIW służących do rozdrobienia treści dokumentu. Stopień rozdrobnienia treści w charakterystyce wyszukiwawczej dokumentu.
27.Metody indeksowania:
Indeksowanie intelektualne (ręczne/konwencjonalne) – indeksowanie swobodne (gdy słownik mamy w głowie), indeksowanie słownikowe, indeksowanie hybrydowe (ze słowników i tego co mamy w głowie), indeksowanie współrzędne.
Tryby indeksowania:
Indeksowanie uogólniające (gdy stosujemy jednostki leksykalne, która mają większy zakres niż wyrazy w książce/dokumencie)
Indeksowanie wyszczególniające (gdy słowna kluczowe mają taki sam zakres jak słowa w dokumencie)
Indeksowanie automatyczne (niekonwencjonalne)
Metody indeksowania automatycznego:
Statystyczne – metody wykorzystywane statystyczne, właściwości wyrazów lub wyrażeń, występujący w tekście dokumentu w aspekcie danego dokumentu lub całego dokumenty.
Probabilistyczne – metody wykorzystujące rachunek prawdopodobieństwa w celu określenia prawdopodobieństwa wyszukania dokumentu relewantnego oraz wykorzystujące rozkłady częstości terminów w celu określenia tego prawdopodobieństwa
Lingwistyczne – metody wykorzystujące automatyczną analizę językowa w celu wyróżnienia w tekście dokumentu wyrażeń informacyjnie ważnych, znaczących dla jego treści.
Indeksowanie współrzędne – indeksowanie charakteryzujące się tym, że pomiędzy użytymi wyrażeniami JIW zachodzi jedynie relacja współwystępowania w tekście – dzięki czemu każde z nich może samodzielnie pełnić funkcję wyszukiwawczą.
Metody indeksowania współrzędnego można wyróżnić wg stopnia ich formalizacji lub kryterium wyboru słów kluczowych.
a) Wg stopnia formalizacji:
Niesformalizowane
Częściowo sformalizowane
Sformalizowane czyli algorytmiczne
b) Wg kryterium wyboru słów kluczowych:
Derywacyjne czyli strukturalne (zakłada wybór słów kluczowych z tekstu dokumentu pierwotnego i pochodnego)
Normatywne czyli słownikowe (zakłada przekład swobodnie wybranych z tekstu słów kluczowych na równoznaczne jednostki leksykalne wybrane z normatywnych słowników deskryptorowych)
Fasetowe czyli ankietowe (odpowiada wcześniej określonym, sformalizowanym metodom indeksowania)
Konwersacyjne (zakłada wybór słów kluczowych w sposób automatyczny z tekstu analizy dokumentacyjnej przy bezpośrednim kontakcie z użytkownikiem)
Statystyczne (zakłada wybór słów kluczowych na podstawie częstotliwości ich współwystępowania w tekście indeksowanych dokumentów) Syntaktyczne
Typologia JIW (wg Ścibora):
Języki klasyfikacyjne (klasyfikacje piśmiennictwa)
Języki haseł przedmiotowych
Języki słów kluczowych
Języki deskryptorowe
Języki kodów semantycznych i języki syntagmatyczne
Języki opisu formalnego (bibliograficznego, katalogowego, cytowań bibliograficznych)
Metody projektowania JIW:
Metoda określania zakresu i modelu pola semantycznego JIW
Metody wyboru terminów
Metody opracowania/strukturalizacji/systematyzacji zgromadzonej terminologii
Metody prezentacji słownictwa
Tendencje rozwoju JIW:
Jadwiga Woźniak-Kasperek:
Od starożytności do lat 60. XX w.. Charakterystyczną cecha tego okresu są wyłącznie języki o słownictwie kontrolowanym
Lata 60. i 70. To okres intensywnych badań nad efektywnością JIW, przede wszystkim o słownictwie kontrolowanym.
Lata 70. – najlepsze efekty uzyskuje się stosując język kontrolowany i język naturalny
Lata 90. Renesans i powrót JIW o słownictwie kontrolowanym.
E. Ścibor:
Stosowanie swobodnych słów kluczowych w wyszukiwarkach internetowych
Dążenie do integracji tezaurusów z obsługiwanymi przez nie bazami danych
Transformacja JHP upodobniających się w coraz większym stopniu do innych języków
Utrzymywanie się znaczenia języków klasyfikacyjnych i dążenie do ich przekształcania w klasyfikacje fasetowe
Do współczesnych trendów rozwoju JIW i opracowania rzeczowego można zaliczyć:
Dominacja paranaturalnych jiw i stopniowe eliminowanie ich sztuczności
Tworzenie paranaturalnych języków opartych na więcej niż jednym języku naturalnym stanowiących narzędzia wielojęzycznego reprezentowania i przeszukiwania zasobów informacyjnych
Uwzględnienie w projektowaniu jiw zachowań informacyjno-wyszukiwawczych użytkowników Internetu
Dążenie do zapewnienia kompatybilności jiw poprzez tworzenie specjalnych języków „pośredników”
Upraszczanie struktur jiw
konkurencja i urynkowienie utrzymania i stosowania poszczególnych jiw
Zainteresowanie się tekstem literackim jako obiektem opisu rzeczowego
[Wzięte z książki jakiejś tam, wg Babika nazywanej „strzał w dziesiątkę”]
31. Kryteria i wyznaczniki oceny języków informacyjno-wyszukiwawczych:
Za najważniejszą cechę konstytuującą wartość jiw uznaje się odpowiednią siłę semantyczną języka osiąganą na osiach paradygmatycznej i syntagmatycznej dzięki:
Odpowiednio szerokiemu zakresowi pola leksykalnego
Dostatecznej wartości selekcyjnej (szczegółowości) jednostek leksykalnych
Poprawnej i odpowiedniej strukturze paradygmatycznej
Jednoznaczności wszystkich wyrażeń jiw
Niesynonimiczność na różnych poziomach struktury języka
Produktywności semantycznej i notacyjnej
Odpowiednim środkom gramatycznym do budowania wyrażeń złożonych
Jasnym i precyzyjnym regułom stosowania jiw
Oznacza to, że optymalny jiw to taki, który jest odpowiedni, przydatny i stosowny do sytuacji czyli:
Na odpowiednim poziomie szczegółowości odwzorowuje wszystkie pojęcia lub większość pojęć , które są niezbędne do takiego opisu dokumentów, aby umożliwiał on użytkownikom stosunkowo łatwo je wyszukiwać za pomocą różnie sformułowanych zapytań informacyjnych
Jest stosunkowo łatwy do nauczenia się i posługiwania się nim Odpowiada warunkom technicznym systemu
Odpowiada możliwościom finansowym jego eksploatacji.
Rodzaj stosowanego jiw ma niewielki wpływ na efektywność wyszukiwania informacji, poszczególne typy jiw mają zbliżony poziom potencjalnej efektywności wyszukiwawczej, na efektywność wyszukiwani istotnie wpływa sposób eksploatacji jiw (indeksowanie).
Języki klasyfikacyjne – klasa JIW, których paradygmatykę stanowią relacje hierarchiczne, odwzorowywane najczęściej w strukturze ich wyrażeń.
Słownikiem klasyfikacji są tablice klasyfikacyjne:
Słownik przekładowy
Uporządkowany semantycznie na podstawie relacji hierarchicznych, wyposażonych w sieć odsyłaczy do symboli o znaczeniu pokrewnym
Niekiedy składa się z odrębnych wykazów symboli głównych i pomocniczych Z reguły wyposażony w indeks alfabetyczny Wyrażeniami są symbole klasyfikacyjne:
Najczęściej wyrażane za pomocą notacji sztucznej Kontrolowane
Mogą być podzielone na dwie lub więcej kategorii syntaktycznych: symbole główne i symbole pomocnicze
Gramatyka: reguły budowy symboli klasyfikacyjnych pojęć, tematów i dokumentów:
Gramatyka zerowa: w klasyfikacjach niesyntetycznych
Gramatyka pozycyjna lub częściowo pozycyjna w klasyfikacjach syntetycznych Typologia:
Ze względu na zakres: o Uniwersalne o Specjalistyczne o Branżowe o Specjalne
Ze względu na zastosowanie:
Bibliotecze
Bibliograficzne
Dokumentacyjne
Ze względu na rodzaj struktury:
Wyliczające
Fasetowe
Najbardziej znanymi i rozpowszechnionymi klasyfikacjami są UKD, KDD, KBK, Klasyfikacja Dwukropkowa Ranganathana.
Języki klasyfikacyjne są wykorzystywane w Internecie do klasyfikowania i porządkowania logicznego lub dziedzinowo tematycznego. Stosuje się je przede wszystkim w internetowych katalogach.
Klasyfikacja Dziesiętna Dewey’a - jest obecnie najpopularniejszą klasyfikacją stosowaną na wszystkich kontynentach, tłumaczoną na wiele języków. Wykorzystywana jest do porządkowania zbiorów bibliotecznych, a także do układu wielu bibliografii i wydawnictw informacyjnych.
Uniwersalna Klasyfikacja Dziesiętna – UKD jest modyfikacją KDD dokonaną przez dwóch prawników belgijskich: Paula Otleta i Henriego La Fontaine’a w latach 1897-1905.
Elementarne jednostki leksykalne UKD mają postać symboli. Symbole te umieszczone są w tablicach klasyfikacyjnych w dwóch zrębach: głównym – Tablicach głównych i pomocniczych – Tablicach pomocniczych. Symbole umieszczone w Tablicach głównych składają się z cyfr, natomiast w Tablicach pomocniczych – z cyfr i znaków graficznych będących wskaźnikami, wyróżnikami jednostek tam zamieszczonych. Każdemu symbolowi towarzyszy odpowiednik słowny, który wyjaśnia jego znaczenie. Symbol razem z odpowiednikiem tworzy hasło UKD.
Gramatyka określa sposób tworzenia symboli rozwiniętych i złożonych. Symbol rozwinięty powstaje z połączenia symbolu głównego z symbolem(ami) poddziałów wspólnych i analitycznych. Symbol rozwinięty może zawierać w zasadzie wszystkie rodzaje symboli pomocniczych, a nawet kilka jednego rodzaju, z wyjątkiem symbolu poddziału wspólnego punktu widzenia (…). Symbol złożony powstaje w wyniku zestawienia symboli prostych (nierozwiniętych) i/lub symboli rozwiniętych za pomocą znaków łączących (symboli łączących). W UKD stosowane są następujące znaki łączące: + (znak plus), / (kreska ukośna), : (dwukropek), : : (podwójny dwukropek), [ ] (nawias kwadratowy). Znaki łączące + (plus), / (kreska ukośna) i : (dwukropek) mają również zastosowanie przy budowie symboli poddziałów wspólnych (…). Znak + (plus) i / (kreska ukośna) służą do łączenia symboli oznaczających pojęcia równorzędne i nie powiązane z żadnymi lub powiązane bardzo luźnymi relacjami. Wskaźnik plus łączy symbole niekolejne. Znak / (kreska ukośna) łączy symbole kolejne i jest to skrócony zapis za pomocą znaku + (plus). Symbole złożone za pomocą znaków + i / oznaczają najczęściej wielo tematyczną treść klasyfikowanego dokumentu, kilka odrębnych zagadnień i rozszerzają zakres symbolu pierwszego. Znak : (dwukropek) stosuje się dla oznaczenia relacji między pojęciami. Mogą być one różnorodne, np.: wzajemny stosunek, wpływ, działanie, przeznaczenie itp. Wskaźnik : : (dwukropek podwójny) wyznacza stałą kolejność elementów w symbolu złożonym (nie może podlegać inwersji). Tworzy się w ten sposób symbole złożone dla nowych pojęć, dla których nie ma w tablicach odpowiednich symboli. Wskaźnik [ ] (nawias kwadratowy) przeznaczony jest do grupowania symboli prostych i/lub rozwiniętych, połączonych znakiem plusa lub dwukropkiem, które pozostają w pewnej relacji do symboli znajdujących się za nawiasem. Nawias pełni rolę analogiczną jak w zapisie algebraicznym. Można stosować nawias tylko jednostronny, jeśli symbole za nawiasem odnoszą się do wszystkich symboli umieszczonych przed nimi.
Klasyfikacja Biblioteki Kongresu – jest systemem opracowanym dla księgozbioru Biblioteki w Waszyngtonie. Prace nad klasyfikacją rozpoczęto w 1899 roku. Struktura KBK ma charakter typowo monohierarchiczny. W KBK nie stosuje się poddziałów wspólnych dla całego schematu. Tablice klasyfikacyjne nie posiadają wspólnego indeksu przedmiotowego lecz odrębne indeksy dla poszczególnych działów.
Klasyfikacje monohierarchiczne
Systemy klasyfikacji, w których wszystkie klasy są ujęte w jeden schemat hierarchiczny i wywodzą się od jednej klasy, obejmującej cały zakres danej klasyfikacji. W typowych klasyfikacjach monohierarchicznych wszystkie jednostki leksykalne (symbole) są wyliczone jawnie (w „gotowej” formie) w tablicach klasyfikacji, stanowiących słownik języka informacyjnego typu klasyfikacyjnego.
Typowe klasyfikacje monohierarchiczne są stosowane obecnie bardzo rzadko. O wiele częściej występują klasyfikacje monohierarchiczne z bardziej lub mniej wyodrębnionymi poddziałami pomocniczymi (wspólnymi, analitycznymi itp.). Przykładami takich klasyfikacji są UKD i PKT.
Klasyfikacje fasetowe
System klasyfikacji, w których klasy są uporządkowane na podstawie wspólnych
charakterystyk wg kategorii i faset lub tylko wg faset (faseta = grupa klasy odpowiadających jakiejś wspólnej charakterystyce, oznaczający np. rodzaj materiału, rodzaj czynności itp.; fasety mogą być grupowane w kategorie).
Przy klasyfikowaniu dokumentów wg klasyfikacji fasetowej w większości wypadków są używane złożone jednostki leksykalne (symbole złożone), tworzone przez syntezę (zestawienie) elementarnych jednostek leksykalnych, zaczerpniętych z poszczególnych faset.
Klasyfikacja Biblioteczno-Bibliograficzna – powstała w latach 60. W ZSRR, opracowana przez pracowników największych bibliotek radzieckich. Jako kryterium systematyzacji wiedzy zastosowano marksistowsko-leninowską koncepcję nauk.
Klasyfikacja ta dzieli całość nauk na 3 grupy (dodając każdej z nich nauki o niej):
Przyroda
Społeczeństwo
Myśl
BBK ma szeroko rozbudowany system poddziałów wspólnych, które określają formy dokumentów, terytorium, język lub pojęcie etniczne, chronologię dokumentów, pojęć wspólnych dla danej nauki.
BBK dopuszcza posługiwanie się dwukropkiem dla połączenia dwóch symboli głównych. Wszystkie działy są opatrzone indeksami przedmiotowymi.
Notacja ma charakter mieszany: duże i małe litery alfabetu rosyjskiego oraz cyfry arabskie. Gramatyka tej klasyfikacji jest wzorowana na UKD. Tablice poszczególnych działów zawierają indeks przedmiotowy.
Klasyfikacja BBK była stosowana oprócz w ZSRR również w bibliotekach w Bułgarii, Wietnamie, NRD, Czechosłowacji i Polsce.
Broad System of Ordering – BSO (szeroki system porządkowania) – jest klasyfikacją szczytową opracowaną przez UNISIST przez zespół specjalistów w ramach współpracy FID i UNESCO. Spełniać ma rolę języka pośredniczącego między różnymi JIW. Klasyfikacja ta jest płytkim systemem polihierarchicznym. Gramatyka BSO jest określana w formule fasetowej.
Klasyfikacja Dwukropkowa Rananathana - klasyfikacja stworzona w 1933 r. przez Shiyali Ramarnita Ranganathana. Nazwa tej klasyfikacji pochodzi od dwukropka, będącego jednym elementem łączącym symbole w pierwszej wersji tej klasyfikacji. Ówczesna wersja obejmowała 32 działy główne ułożone wg ewolucyjnej koncepcji wiedzy od nauk przyrodniczych począwszy, a skończywszy na naukach społecznych. Druga wersja, uzupełniona i zmieniona, ukazała się w latach 50. XX w. wprowadzając już 42 działy. Rodzaje relacji:
Relacje generyczne
Relacje merologiczne
Relacje hierarchii tematycznej
Polska Klasyfikacja Tematyczna – jest płytką klasyfikacją uniwersalną opracowaną dla SINTO w celu:
Określenia obszarów tematycznych zbiorów, podsystemów i serwisów informacyjnych, które zostaną wyodrębnione w ramach SINTO
Porządkowania wydawnictw informacyjnych, szczególnie o charakterze interdyscyplinarnym
Określenie zakresów tematycznych dziedzinowych JIW oraz koordynacji prac nad tymi językami Struktura:
Na pierwszym poziomie wyróżnia się 79 działów uporządkowanych w następujących grupach:
Nauki społeczne o Nauki ścisłe i przyrodnicze o Nauki stosowane, gałęzie gospodarki narodowej
Zagadnienia ogólne i kompleksowe
Dokumenty o treści uniwersalnej
Język Haseł Przedmiotowych – język naturalny o słownictwie quasi-naturalnym (mającym postać wyrażeń języka naturalnego) i gramatyce pozycyjnej, tj. o ustalonym szyku EJL w zdaniu języka informacyjnego.
Słownictwo:
Wyrażane za pomocą notacji paranaturalnej
Kontrolowane
Podzielone na dwie podstawowe kategorie syntaktyczne; tematy samodzielne składniowo i określniki niesamodzielne składniowo
Słownik: słownik tematów i określników, słownik haseł przedmiotowych, KHW
Słownik przekładowy
Uporządkowany alfabetycznie i zawierający odsyłacze kierujące do wyrażeń nie stosowanych do odpowiednich tematów lub określników oraz poszczególnych tematów lub określników do tematów lub określników powiązanych z nimi relacjami semantycznymi
Zwykle składający się z odrębnych wykazów tematów i określników stosowany przy poszczególnych kategoriach tematów
Język Haseł Przedmiotowych Biblioteki Narodowej:
JHP BN jest JIW o charakterze uniwersalnym stosowanym od kilkudziesięciu lat w bieżącej bibliografii narodowej, katalogach BN oraz co najmniej kilkuset polskich bibliotekach.
Tematy JHP BN są jednostkami samodzielnymi leksykalnie i składniowo, tzn. mogą samodzielnie stanowić hasło przedmiotowe. Tematy dzielimy na rzeczowe – wyrażane zwykle nazwą pospolitą, jednostkowe – osobowe, korporatywne, tytułowe, geograficzne, formalne.
Określniki są wyrażeniami niesamodzielnymi składniowo, tzn. nie mogą samodzielnie stanowić hasła przedmiotowego. Są elementem dodawanym po temacie w celu doprecyzowania kontekstu, wskazania na aspekt, ujęcie, punkt widzenia, lokalizacji przedmiotu dokumenty w czasie i przestrzeni.
Dzielimy na:
rzeczowe:
ogólne o jednostkowe o geograficzne o chronologiczne JHP BN jest systemem otwartym, zasób słownictwa nie podlega żadnym ograniczeniom i odzwierciedla tematykę gromadzonych dokumentów.
Terminy użyte jako tematy powinny odpowiadać polskiej terminologii z danej dziedziny i pochodzić z wiarygodnych polskich źródeł informacji. Obecnie podstawowym zasobem terminów są wielkie encyklopedie uniwersalne oraz encyklopedie dziedzinowe i słowniki terminologiczne. Terminy są weryfikowane za pomocą aktualnego słownika języka polskiego.
JHP KABA – posiada charakterystyczne cechy dla innych języków haseł przedmiotowych. Język o notacji paranaturalnej.
Jednostki leksykalne mają formę wyrażeń równokształtnych z wyrażeniami języka naturalnego, tzn. forma tematów i określników jest tożsama z formami języka naturalnego, jednak znaczenia tych jednostek nie zawsze są tożsame.
Jednostki słownika nazywa się tematami i określnikami
Gramatykę stanowią reguły budowy haseł przedmiotowych, ich łączenia oraz transformacji
Zakres słownictwa jest nieograniczony
JHP KABA wyróżnia się spośród innych JIW następującymi cechami:
Struktura słownictwa dostosowana do katalogowania przedmiotowego wyszczególniającego
Kompatybilność z najbardziej znaczącymi i rozpowszechnionymi w świecie JHP
Kartoteka wzorcowa języka KABA – podstawową jednostką jest rekord KHW. Rekord w formacie wymiennym MARC 21 składa się z etykiety rekordu, tablicy adresów i pól danych
Język słów kluczowych
Języki informacyjne o słownictwie quasi – naturalnym i gramatyce niepozycyjnej (dowolny szyk elementarnych jednostek leksykalnych w zdaniu języka informacyjnego), równoznacznej w zasadzie indeksowaniem współrzędnym, polegającym na charakteryzowaniu złożonej treści dokumentu przez koordynację współrzędnych, niezależnych, dających się swobodnie zestawiać elementarnych jednostek leksykalnych.
Słownictwo: słowa (fazy) kluczowe
Wyrażane za pomocą notacji paranaturalnej
Na ogół niekontrolowane; dopuszcza się synonimię leksykalną
Wszystkie słowa kluczowe mają identyczną charakterystykę składniową
Stosowane bywa sztuczne słownictwo pomocnicze (wskaźniki roli, więzi wagi) Słowniki:
Dodatni: wykaz (słownik) słów kluczowych
o Uporządkowany alfabetycznie spis słów kluczowych używanych w indeksowaniu i wyszukiwaniu dokumentów
o Niekiedy uwzględnia się wyrażenia, od których odsyła do słów kluczowych
Ujemny: stop-lista:
Uporządkowany, zwykle alfabetycznie wykaz wyrażeń, których nie wolno stosować w indeksowaniu i wyszukiwaniu dokumentów (np. przyimki, spójniki) - Instrukcyjny:
Charakterystyka formalna wyrażeń języka naturalnego, które można stosować jako słowa kluczowe w indeksowaniu i wyszukiwaniu dokumentów
Gramatyka: indeksowanie współrzędne, w przypadku stosowania słownictwa pomocniczego – gramatyka częściowo pozycyjna
Słowa kluczowe w nauce o informacji:
W nauce o informacji można wyróżnić 3 odmienne podejścia do słów kluczowych:
Odrębność w stosunku do wyrażeń języka naturalnego. System leksykalny sztucznego języka słów kluczowych stanowi kontekst słów kluczowych.
Akceptacja bezpośrednich związków integracyjnych z językiem naturalnym. Język naturalny dale kontekst słowom kluczowym.
System leksykalny języka słów kluczowych stanowi kontekst poszczególnych słów kluczowych, zaś język naturalny uzupełnia deficyty tego kontekstu.
Języki deskryptorowe
Języki informacyjne o słownictwie przeważnie quasi – naturalnym i gramatyce przeważnie niepozycyjnej, równoznacznej w zasadzie z indeksowaniem współrzędnym.
Słownictwo: deskryptory oraz ewentualnie identyfikatory, modyfikatory, wskaźniki roli, więzi wagi, relatory:
Wyrażane za pomocą notacji paranaturalnej (wyszukiwanie informacji, systemy online)
Poza podstawową kategorią samodzielnych składniowo deskryptorów mogą być wyposażone w paranaturalne słownictwo pomocnicze w postaci modyfikatorów, identyfikatorów oraz sztuczne słownictwo pomocnicze (wskaźniki roli, więzi, wagi i rangi, relatory)
Słownik: tezaurus:
Słownik przekładowy
Uporządkowany alfabetycznie i semantycznie (reprezentacja przekładowej relacji odpowiedniości wyszukiwawczej między deskryptorem a askryptorem oraz relacji hierarchicznej i kojarzeniowej między deskryptorami Gramatyka:
Indeksowanie współrzędne, w przypadku stosowania słownictwa pomocniczego – gramatyka częściowo pozycyjna
Języki semantyczne
Całkowicie sformalizowane języki informacyjne, których słownik składa się ze stosunkowo nielicznych kodów (symboli) literowych i/lub cyfrowych, używanych w celu oznaczenia pojęć ogólnych i form gramatycznych.
Kody semantyczne – są budowane na zasadzie tzw. języka semantycznego, stosowanego jako pozbawiony synonimii i homonimii metajęzyk opisu znaczenia głównie wyrażeń języka naturalnego. Słownik takiego języka składa się z wyrażeń, które reprezentują znaczenia elementarne (w sensie filozoficznym). Odwzorowujące podstawowe cechy elementarnej rzeczywistości.
Najbardziej znanymi jiw należącymi do tej grupy są Język ASM-WRU (kod semantyczny J. W. Pery’ego i A. Kenta, M. M. Berry), American Society for Metals, powstał dla ośrodka badań i przekazywania informacji przy Western Reserve University Cleverland (Ohio), 19541959. Słownik składał się z 214 mnożników semantycznych (ang. semantic factors) Słownictwo: mnożniki semantyczne, prymitywy semantyczne, semy
Najczęściej wyrażane za pomocą notacji sztucznej (MUSR, MACH, R117)
Elementarne jednostki leksykalne kodów semantycznych reprezentują tzw. proste pojęcia, wchodzące w skład pojęć złożonych wyrażanych przez wyrażenia złożone semantycznie, np. terminy naukowe; pojęcia proste, wchodzące w skład pojęć złożonych wyrażanych prze wyrażenia złożone semantycznie np. terminy naukowe; pojęcia proste ustalane SA metoda analizy kontrastywnej znaczenia wyrażeń semantycznie złożonych
Zwykle podzielona na dwie lub więcej kategori semantycznych:wyrażenia reprezentujące pojęcia proste i wyrażenia reprezentujące relacje semantyczne i sytuacyjne
Słownik:
Specjalistyczny wykaz mnożników semantycznych, prymitywów
Słownik przekładowy
Uporządkowany semantycznie
Wyposażony w indeks
Języki syntagmatyczne:
Słownictwo: deskryptory (lub słowa kluczowe) i relatory
Deskryptory wyrażane za pomocą notacji paranaturalnej;
Relatory – za pomocą notacji sztucznej Słownik:
Tezaurus (lub wykaz słów kluczowych) oraz wykaz relatorów Gramatyka : rozbudowana gramatyka częściowo pozycyjna
Jedynym językiem syntagmatycznym szerzej znanym jest SYNATOL opracowany w latach
1960-2 na potrzeby systemu EURATOM; stanowił on rodzaj j, deskryptorowego ze znacznie rozbudowaną gramatyką, opartą na systemie delatorów wskazujących powiązania zachodzące między deskryptorami w charakterystykach dokumentów lub w instrukcjach wyszukiwawczych.
Cechy wspólne:
Ich słowniki zawierają stosunkowo nie wielką liczbę jednostek leksykalnych będących wybranymi wyrazami, morfemami zaczerpniętymi z języka naturalnego lub symbolami
Gramatyka: zapewnia jednoznaczność zapisu znaczeń, np. w postaci drzewa zależności
Należą do grupy kodów semantycznych, czyli całkowicie sformalizowanych języków informacyjnych, których słowniki składają się z kodów literowych i/lub cyfrowych, używanych do oznaczania pojęć ogólnych.
Język tezaurusów (historia, rozwój, rodzaje):
Pierwszy tezaurus został opracowany w 1532 roku przez Roberta Stephanusa i wydany w Paryżu „Thesaurus lingua latinae”. Był to jednojęzyczny słownik frazeologiczny w układzie alfabetycznym, pozwalał poznać znaczenie danego wyrazu oraz jego synonimy.
Pierwszy polski tezaurus opracował Grzegorz Knapski w 1621 r.
Tezaurus Petera Marka RouFgeta („Tezaurus angielskich wyrazów i zwrotów”) został wydany w 1852 r. ma on ok. 100 wydań, znane są 2 wersje tego tezaurusa: „Roget’s International Thesaurus”, „Roget’s Pocket Thesaurus”. Tezaurus składa się z dwóch części, pierwsza jest podzielona na kategorie, klasy i sekcje. Drugą część stanowi indeks alfabetyczny. Adaptacji tego tezaurusa na język polski podjął się Roman Zawiliński.
Rodzaje tezaurusów:
Filologiczne – stanowią słownik synonimów i antonimów, niektóre posiadają cechy słowników frazeologicznych. Nie są normatywne.
Współczesne – są normatywne, nakazują stosowania pewnych wyrażeń, zakazując stosowania innych.
Rozwój tezaurusów:
Tezaurusy alfabetyczne proste – opracowywane na wzór słowników haseł przedmiotowych – zaigrały tylko te relacje, które stosowano w słownikach JHP. Nie stosowano symetrii odsyłaczy.
Tezaurusy alfabetyczno-hierarchiczne – zaczęły pojawiać się relacje hierarchiczne
Tezaurusy z częścią systematyczną – gdzie słownictwo porządkowano wg określonych kategorii
Tezaurusofasety – tezaurus pełni tylko rolę indeksu do tablic
Tezaurus dokumentacyjny – I taki tezaurus opracował K. Paulus w 1959 r., dotyczył urządzeń elektrycznych i mechanicznych. W Polsce pierwszy tezaurus dokumentacyjny powstał w 1969 r. i dotyczył urządzeń transportu bliskiego.
Typy:
Alfabetyczne
Systematyczne
Graficzne
Indeksy permutacyjne
Postać:
Tezaurusy w formie opublikowanej (książka) Tezaurusy w formie maszynopisu
Tezaurusy w pamięci komputera
Słownictwo tezaurusa stanowią deskryptory, askryptory i (opcjonalnie) modyfikatory.
Deskryptory – to wyrażenia języka deskryptorowego, służące do charakteryzowania dokumentów i pytań, mające na ogół budowę identyczną lub zbliżoną do wyrazów języka naturalnego, choć na ogół nieco inne znaczenie.
Askryptory – to terminy zakazana, nie używane w indeksowaniu, ale przydatne do sprawnej realizacji wyszukiwania; ich znaczenia reprezentują w języku deskryptorowym odpowiednie deskryptory.
Modyfikatory (deskryptory aspektowe) – to wyrazy pomocnicze niesamodzielnie składniowo, najczęściej o ogólnym, szerokim znaczeniu, stosowane tylko i wyłącznie razem z deskryptorami w celu modyfikacji ich znaczeń.
Metody opracowywania tezaurusów:
Metoda dedukcyjna
o Grupa ekspertów decyduje o zakresie i kategoriach ogólnych terminologii
o Zastosowanie istniejących słowników i tezaurusów do gromadzenia słownictwa
Przegląd i organizacja zgromadzonego słownictwa: wybór deskryptorów i askryptorów, tworzenie relacji hierarchicznych i in.
Metoda indukcyjna:
Grupa ekspertów jako wspomagający
Indeksowanie istniejącego zbioru dokumentów
Tworzenie tezaurusa na podstawie zgromadzonego słownictwa
Kartoteka Haseł Wzorcowych – forma prezentacji języka opisu bibliograficznego oraz JIW, jak również ich organizacji, kontroli poprawności i spójności w niektórych zautomatyzowanych SIW.
KHW zawiera:
Hasła opisu bibliograficznego:
-Hasła osobowe
- Hasła korporatywne
- Hasła tytułowe
Tytuły:
Serii
Wydawnictw zwartych wieloczęściowych
Języki metadanych:
To języki, w których mogą być wprowadzane meta dane obiektów cyfrowych umieszczanych w systemie. Są to m.in. meta dane wydań, publikacji planowanych, grupowych, katalogów oraz opisy i komentarze do wydań i publikacji grupowych. W ramach języków metadanych użytkownika administrator wybiera domyślny język metadanych. Meta dane w tym języku reprezentowane są użytkownikowi stron internetowych wtedy, gdy nie ma on w swoich preferowanych językach żadnego języka z listy wykorzystywanych języków metadanych. Języki metadanych dotyczą elementów, które z reguły codziennie wprowadzane są do biblioteki cyfrowej. Z tego względu zestaw języków metadanych musi być ograniczony do takich języków, w których redaktorzy mogą wprowadzać informacje (meta dane, opisy itd.).
Metadane – dane o danych, informacja o informacji. W działalności informacyjnej termin ten oznacza zdefiniowanie lub opis danych. Często przy tej okazji podaje się przykład katalogu bibliotecznego jako dobrze ustrukturalizowanego zbioru metadanych. Meta dane umożliwiają użytkownikom wyszukanie potrzebnej informacji w cyberprzestrzeni wraz z odpowiedzią na pytanie w jakiej relacji pozostaje ona do innych informacji.
Język opisu formalnego – to klasa wyspecjalizowanych para naturalnych JIW w funkcji wyrażenia cech formalnych dokumentów umożliwiających ich identyfikację. Zazwyczaj są nimi nazwiska i imiona autorów, rok publikacji, miejsce wydania, nazwa wydawcy, tytuł serii, forma wydawnicza i piśmiennicza. Różne elementy tego języka są wykorzystywane do opisu poszczególnych typów dokumentów z uwzględnieniem ich cech relewantnych dla użytkowników. Słowniki tych języków są niejawne.
Do tej grupy JIW zalicza się języki opisu bibliograficznego (katalogowego) i języki cytowań bibliograficznych.
Język opisu bibliograficznego - to klasa języków opisu formalnego stosowana w bibliografiach, bibliografiach załącznikowych, katalogach bibliotecznych.
Język cytowań bibliograficznych – to klasa JIW stosowanych w tzw. indeksach cytowań bibliograficznych, których teksty składają się z opisu bibliograficznego dokumentów cytowanych oraz listy opisów bibliograficznych dokumentów cytowanych w dokumencie źródłowym, tj. umieszczonych w tzw. bibliografii załącznikowej, spisie literatury wykorzystanej w przypisach. Jest to JIW wykorzystujący bibliograficzne odesłania jednych autorów do drugich oraz ujawniający związki tematyczne pomiędzy pracami jednego lub różnych autorów. Języki te powstały w latach 60. XX w.
JIW prostych systemów faktograficznych
System faktograficzny – jest to zespół środków umożliwiających wyszukiwanie i przekazywanie informacji faktograficznej; najeżą tu język informacyjny, zasady opracowywani i wyszukiwania informacji oraz środki techniczne umożliwiające realizację tych procesów.
Prosty system faktograficzny – system faktograficzny niededukcyjny, pozbawiony możliwości wnioskowania, ograniczony jedynie do agregowania danych i wykonywania na nich prostych operacji.
Słownik: znormalizowane nazwy obiektów, cech, wartości. Może zawierać jednostki paranaturalne ale i wartości liczbowe.
Brak słownika jawnego, a tylko tworzenie go w miarę napływu dokumentów do systemu
Słownik wzorcowy – to znaczy fragment języka będący wzorem tworzenia elementarnych jednostek leksykalnych
Słownik o pełnym słownictwie w postaci: tylko części alfabetycznej, tylko części systematycznej, części alfabetycznej i systematycznej
Za typ słownika uznaje się też wykaz nazw obiektów i atrybutów na formularzach służących do wprowadzania danych
Gramatyka; pozycyjna + gramatyka częściowo pozycyjna z rozbudowanym systemem wskaźników roli
Typy języków obiekt – atrybut:
Ankietowe
Języki służące do tworzenia tablic parametrycznych
Języki a priori
Języki a posteriori
Język systemu „Wielka Emigracja” – dane do tego eksperymentalnego systemu faktograficznego zgromadzono na podstawie materiału archiwalnego znajdującego się w Archiwum Historycznym Ministerstwa Wojny w Vincennes pod Paryżem. System zawiera dane o 2500 emigrantach polskich z epoki napoleońskiej i Powstania Listopadowego. Obiektami są więc w tym systemie emigranci. Do opisu stosuje się opracowany a priori wykaz atrybutów, częściowo wraz z ich wartościami, np. urodzenie, pochodzenie, śmierć, wykształcenie, zawód. Sporządzanie charakterystyk wyszukiwawczych obiektów ogranicza się do podania wartości niektórych atrybutów i zaznaczenia, która z pośród wymienianych wartości atrybutów odnosi się do danego obiektu. Określenia odnoszące się do niektórych atrybutów w tym systemie są właśnie wartościami tych atrybutów. Do odzwierciedlenia relacji paradygmatycznych pomiędzy atrybutami i ich wartościami zastosowano „schodkową” postać zapisu, tzn. nazwy wartości lub atrybutów podrzędnych przesunięto w prawo o 4 znaki w stosunku do nazw atrybutów.
Język systemu analizy treści listów – obiektami systemu są listy, analogiczne jak dokument w systemach dokumentacyjnych. Celem systemu analizy listów jest dostarczenie informacji ułatwiającej podjęcie decyzji poprzez ocenę aktualności zagadnienia i rozpowszechnienia zjawiska na podstawie częstotliwości jego występowania w listach informacja faktograficzna o treści powinna zawierać następujące dane:
Wskazania tematu listu
Wskazania na obiekt listu (instytucja lub osoba). Te dane pozwolą ocenić regularność i rozpowszechnianie niektórych zjawisk.
Dane o własnościach obiektu rozpatrywanego w liście
Daty wpływu listów w połączeniu z danymi o obiekcie i jego własnościach określają regularność zjawiska, na które wskazywać może nie tylko liczba listów o podobnej treści, lecz również rozrzut ich dat w czasie
W celu wprowadzenia danych do systemu na podstawie listów przygotowuje się specjalne ankiety. Pewne pytania ankiety mają charakter formalny, inne merytoryczny. W celu ujednolicenia odpowiedzi na pytania przygotowano spis możliwych odpowiedzi, czyli wartości atrybutów. Spis taki można opracować na podstawie treści listów lub też bez odwoływania się do nich.
Przewodnik Bibliograficzny:
Język Haseł Przedmiotowych Biblioteki Narodowej
Uniwersalna Klasyfikacja Dziesiętna
KaRo (pisałam, do pana, który stworzył KaRo):
KaRo samo nie implementuje jakiegoś konkretnego języka, zamienia tylko proste dane z formularzy na zapytania zgodne z Z39.50 zapisane w formacie RQG. Dostęp do Federacji Bibliotek Cyfrowych jest realizowany poprzez ich interfejs zgodny z OpenSearch.
Biblioteka WZiKS:
Język Haseł Przedmiotowych KABA
Kartoteka Haseł Wzorcowych
Język stworzony przez bibliotekę
Katalog Kartkowy BJ:
Katalogi alfabetyczne łacińskie (bez polskich znaków)
Katalogi rzeczowe systematyczne wg układu stworzonego przez pracowników BJ
Katalogi przedmiotowe wg JHP BN
Katalog OPAC BJ:
Język Haseł Przedmiotowych KABA
MeSH
Usuwanie homonimii i synonimii
Eliminacja homonimii - eliminuje to szum informacyjny - (np. Użytkownik pytając o „Różę“ dostaje informację o chorobie zamiast o roślinie) - trzeba określić dookreślenia, zwykle w nawiasie.
Synonimia jest podciągana zwykle do relacji odpowiedniości leksykalnej. Wyklucza się ją poprzez odsyłacze. Na wyższych poziomach niż EJL synonimia też się tworzy czasem i bardzo trudno ją przewidzieć i trudniej jeszcze ją wykluczyć.
Kryteria wyboru JIW:
1. język informacyjny - j. sztuczny którego wyspecjalizowaną funkcją jest funkcja metainformacyjna polegająca na odwzorowaniu cech informacji i/lub cech nośników informacji, na których są one utrwalone, przez tworzenie ich reprezentacji zwanej charakterystyką wyszukiwawcza dokumentu oraz funkcja wyszukiwawcza polegająca na wyrażaniu zapytań informacyjnych i umożliwianiu odnalezienia w zbiorze wyszukiwawczym tych informacji, które spełniają warunki wyrażone w zapytaniu. Ze względu na różne cechy funkcjonalne i własności strukturalne wyróżnia się wiele typów JIW. W zależności od tego, czy przeznaczone są do opisu informacji dokumentacyjnej, czy informacji faktograficznej, dzieli się je ogólnie na dokumentacyjne JIW i faktograficzne JIW. Pierwsza grupa może być rozbita na 2 podklasy, przy innym kryterium funkcjonalnym – wyspecjalizowane w wyrażaniu cech formalnych dokumentu lub własności jego treści. Języki wyspecjalizowane w pierwszej z tych funkcji, czyli w wyrażaniu własności dokumentu traktowane jako nośnik informacji, to języki opisu bibliograficznego, języki opisu formalnego i języki opisu katalogowego. Języki wyspecjalizowane w funkcji drugiej to języki opisu rzeczowego dokumenty, które w dawniejszej literaturze utożsamiane były z językami informacyjno wyszukiwawczymi w ogóle i obejmowały wszelkie języki przeznaczone do tworzenia opisu dokumentów na potrzeby katalogów rzeczowych. Obecnie zarysowuje się tendencja traktowania takich języków jedynie jako jednego z podtypów szerszej klasy języków informacyjno wyszukiwawczych, do którego najczęściej zalicza się klasyfikacje (wśród nich klasyfikacje monohierarchiczne i klasyfikacje fasetowe), jhp, języki deskryptorowe, języki słów kluczowych, języki typu kodu semantycznego i tzw. języki syntagmatyczne.
Funkcje języka informacyjnego:
metainformacyjna – odtwarza treść dokumentu oraz jego cechy formalne
wyszukiwawcza – umożliwia wyrażenie zapytań informacyjnych w formie instrukcji wyszukiwawczych oraz odnalezienie w zbiorze informacyjnym tych dokumentów, które odpowiadają danemu zapytaniu
2. Specjalistyczny język sztuczny, przeznaczony do opisania podstawowych treści dokumentów i formułowania kwerend; jest językiem ogólnym, który jest interpretowany dopiero w zaprojektowanym systemie; język powinien być kompletny, zupełny, prosty i powinien spełniać oczekiwania użytkownika; ta sama informacja o obiekcie może być różnie zapisana w zależności od przyjętego języka.
Funkcje języka informacyjno-wyszukiwawczego:
A. Funkcja metainformacyjna - polega na ograniczaniu funkcji semantycznej języka naturalnego do opisu informacji - np. prezentacji cech treściowych i/lub formalnych dokumentów czy też prezentacji dystynktywnych cech obiektów pozadokumentacyjnych; funkcja podstawowa
B. Funkcja wyszukiwawcza (impresywna, heurystyczna) - polega na sterowaniu procesem wyszukiwania informacji poprzez wyrażenia charakteryzujące warunki, jakie powinien spełniać wyszukany podzbiór informacji. O możliwościach realizacji funkcji wyszukiwawczej decyduje w znacznej mierze funkcja organizacyjna; funkcja podstawowa
C. Funkcja organizacyjna - określa miejsce wyrażeń syntaktycznie prostych języka w zbiorze informacji systemu poprzez formę tych wyrażeń (plan wyrażenia); funkcja wtórna
D. Funkcja określania zakresu tematycznego zbiorów informacji
Funkcje i znaczenia relacji paradygmatycznych:
a) Nacechowanie i nienacechowanie.
b) Obciążenie funkcjonalne
W angielskim istnieje wiele wyrazów, tworzących tzw. pary minimalne, które różnią się tylko tym, że w jednym jest /p/ a w drugim /b/, np. pet – bet, pack – back, cap – cab itp. Ponieważ takich wyrazów jest wiele, kontrast między tymi dwoma elementami ma duże obciążenie funkcjonalne. Inne opozycje wykazują mniejsze obciążenie funkcjonalne.
Zatem im większe obciążenie funkcjonalne tym ważniejsze przyswojenie sobie danej opozycji.
W skandynawskich: długość (samogłoski i spółgłoski): w polskim nie ma obciążenia funkcjonalnego (taaaka ryba to wciąż taka ryba), podczas gdy w szwedzkim – ogromne.
Ograniczenia
- Obciążenie funkcjonalne może być różne w zależności od miejsca w wyrazie: większe w nagłosie ale bez znaczenia w wygłosie (jak w polskim p - b).
- Obciążenie funkcjonalne zależy też od tego, czy dane wyrazy mają podobną dystrybucję. Przy dystrybucji komplementarnej – zero!
- Częstość występowania danego wyrazu.
c) Struktura statystyczna. Prawo Zipf’a.
Korelacja między długością a częstością występowania danego elementu.
d) Redundancja
’Zbyteczność’. Pewna część informacji gramatycznej jest zakodowana wielokrotnie, ale też pewna część informacji umyka w ’szumie’, stąd pewna ilość redundancji jest konieczna.
e) Akceptowalność
Wypowiedź akceptowalna została lub mogła zostać wyprodukowana przez rodowitego użytkownika danego języka w odpowiednim kontekście i jest albo mogłaby być akceptowana jako należąca do tego języka przez innego z jego rodowitych użytkowników.
f) Gramatyczność
akceptowalność na mocy określonego zbioru reguł i określonej klasyfikacji elementów leksykalnych i gramatycznych języka. Niedookreśloność gramatyki: to, czy dana wypowiedź jest gramatyczna czy nie można stwierdzić tylko w odniesieniu do konkretnego zbioru reguł.
g) Sensowność
Układ tezaurusa Rogeta
"(...) nazwa tezaurus zyskała znaczenie słownika pojęciowego, w którym słownictwo jest uporządkowane według kategorii tematycznych, a artykuły hasłowe zawierają wykaz wyrażeń pokrewnych znaczeniowo wobec danego hasła (najczęściej synonimów i bliskoznaczników, niekiedy też hiperonimów, hiponimów i antonimów). Pierwszym słownikiem tego typu był Petera Marca Rogeta Thesaurus of English Words and Phrases (Londyn 1852; do dziś ok. 100 wydań) i on to właśnie stał się wzorcem tezaurusa rozmumianego jako słownik pojęciowy. (...)Tezaurus Rogeta pomyślany był jako narzędzie, które piszącym ułatwi znalezienie odpowiedniego słowa lub frazy wyrażającej określone pojęcie, określony sens. Tezaurus jako narzędzie wyszukiwania informacji ma indeksatorowi zapewnić wybór terminów, które najlepiej identyfikują pojęcia składające się na treść indeksowanego tekstu (dokumentu), a wyszukującemu – wybór terminów, za pomocą których najtrafniej wyrazi pojęcia składające się na temat, którego omówień szuka w systemie informacyjnym, co w konsekwencji powinno pozwolić mu wyodrębnić opisy tych omówień (dokumentów zawierających je) w zbiorze wyszukiwawczym systemu. W obu przypadkach wybór właściwego wyrażenia umożliwić ma prezentacja jego powiązań znaczeniowych z innymi wyrażeniami, czyli projekcja r e l a c y j n e j s t r u k t u r y j e g o p o l a s e m a n t y c z n e g o za pomocą artykułów słownikowych zawierających informacje o relacjach semantycznych, w które wchodzi wyrażenie hasłowe, oraz za pomocą pojęciowej organizacji leksyki, grupującej wyrażenia według kategorii semantycznych.
Wąskie znaczenie terminu, JIW – uważa się, że są to języki sztuczne służące do opisu treści dokumentów. Nowsze opracowania rozszerzają tę definicję również o formę dokumentu.
(to znaczy, że JIW = TREŚĆ + FORMA)
Szerokie znaczenie terminu, JIW – uważa się (Babik również), że języki te są budowane dla różnych typów systemów informacyjno-wyszukiwawczych, a nie tylko do systemów dokumentacyjnych i opisów dokumentów. Babik kazał rozumieć definicję JIW w szerszym znaczeniu!.
Języki informacyjno-wyszukiwawcze są to wyspecjalizowane systemy przeznaczone do opisu treści i podstawowych cech formalnych dokumentów.
KOD – może mieć taką samą strukturę jak język. Reguły kodu nie są jawne dla wszystkich tylko, dla pewnej grupy użytkowników. Pewnym rodzajem kodu są piktogramy oraz ideogramy. Przykłady: @, $, § itp. W JIW informacje są zapisywane za pomocą kodu.
SZYFR – jest rodzajem kodu, służy do zapisu treści umownymi znakami Treść przekazywana za pomocą szyfru jest utajone. Informacje są utajone. Do rozbijania szyfry służy szyfrarka
Język i jego elementy J = S + G + S*
Słownik (słownictwo)
Gramatyka
Reguły interpretacji, semantyka transformacyjna
W każdym języku oprócz elementów można jeszcze uwzględnić poziomy.
Siedem poziomów języka naturalnego:
Cecha dystynktywna fonemu.
Fonem
Morfem
Wyraz
Związek wyrazowy
Zdanie
Tekst
Poziomy języka informacyjno-wyszukiwawczego. (Teoretycznie jest ich 4, Babik uważa jednak, że tak naprawdę jest ich 5).
Elementarny znak graficzny [EZG] (litery, cyfry, znaki semigraficzne) – elementarne znaki graficzne są pustymi semantycznie elementami języka.
Elementarna jednostka leksykalna [EJL] (deskryptory, słowa kluczowe, symbole, tematy)
Zdanie
Tekst JIW (CHWD, IW.)
Z elementarnych znaków graficznych [EZG] tworzy się elementarne jednostki leksykalne [EJL]. W nowszych opracowaniach (zwłaszcza literatura zagraniczna) wyróżnia się 5 poziomów JIW. Drugim poziomem, po EZG, są morfemy, z których tworzy się EJL, a z nich następnie zdania. CHWD i IW to teksty stworzone w językach informacyjno wyszukiwawczych.
CHWD – charakterystyka wyszukiwawcza dokumentu.
IW – instrukcja wyszukiwawcza.
Tekst napisany w JIW może być zawarty np. na karcie katalogowej lub w rekordzie bibliograficznym, ale mogą to być również słowa kluczowe.
Pod języki (subjęzyki, dialekty JIW)
- język indeksowania [indexing language]
- język wyszukiwawczy [retrival language]
DEFINICJA STRUKTURALNA JIW – jest to język sztuczny, który składa się z trzech elementów: słownika, gramatyki i reguł interpretacji, czyli semantyki transformacji, oraz z 5 poziomów [EZG, morfemów, EJL, zdań i tekstu]
JIW – wyspecjalizowały się w realizacji tylko pewnych określonych funkcji, a mianowicie funkcji metainformacyjnej, polegającej na reprezentowaniu treści i formy dokumentów, oraz funkcji wyszukiwawczej, polegającej na wyrażaniu kierowanych do systemu informacyjno-wyszukiwawczego pytań informacyjnych i kształtowaniu procesu wyszukiwania informacji.
Funkcje JIW:
Konstruktywne (istotne)
Funkcja metainformacyjna [opisowa]
Funkcja wyszukiwawcza [znalezienie informacji, faktów, przedmiotów]
Pochodne (mogą być, ale nie muszą)
Organizująca in. porządkująca np. zbiór informacji i/lub faktów
Określania zakresów tematycznych zbiorów i systemów informacyjnych i wyszukiwawczych.
FUNKCJA METAINFORMACYJNA – jest specyficzną funkcja opisową wszystkich JIW przeznaczonych dla dokumentacyjnych SIW.
FUNKCJA WYSZUKIWAWCZA – realizacji tej funkcji służą wyrażane w JIW pytania informacyjne.
Pozostałe funkcje mają charakter wtórny. Należą do nich Funkcja organizująca (porządkująca), oraz funkcja określania zakresów tematycznych zbiorów SIW ( podział pola tematycznego i informacyjnego danego systemu na mniejsze jednostki).
Babik wymyślił 5 funkcję JIW [funkcja babikowa in. reklamowa lub marketingowa] funkcja ta może odnosić się np. do słów kluczowych w headach stron internetowych.
08.11.2007 – Systemy leksykalne i słownikowe w systemach informacyjno-wyszukiwawczych.
Słownictwo – zbiór wyrazów używanych w danym języku.
Słownictwo JIW > Słownik
W każdym języku wyróżnia się dwa plany (wymyślił je Ferdynand de Saussure, Szwajcar, Babik uważa, że był on wybitnym językoznawcą)
DWIE PŁASZCZYZNY:
Treści (zbiór cech, które można opisać w danym języku)
Wyrażania (forma, w jakiej treść jest wyrażana np. le chat, cat, kot, ĸошка, itd.)
SYSTEM LEKSYKALNY – jest to struktura językowa zbudowana z wykładników językowych znaczeń (wyrazów, leksemów), które można wyrazić w danym języku za pomocą środków, którymi ten język dysponuje.
TRÓJKĄT DOKUMENTACYJNY
System leksykalny ma swoją wewnętrzną strukturę. Tworzy ją sieć formalnych, strukturalnych i funkcjonalnych zależności występujących między jednostkami w systemie leksykalnym danego języka.
EJL – elementarne jednostki leksykalne mają znaczenie, więc są to znaki w pełni semantyczne.
Każdy język ma dwa rodzaje notacji: paranaturalną i sztuczną.
Paranaturalne – występują w sytuacji, gdy jednostki leksykalne języka są równokształtne z wyrażeniami języka naturalnego. Jest to np. Język Haseł Przedmiotowych lub Słów Kluczowych.
Sztuczne – nie korzysta się ze słownictwa języków naturalnych np. UKD.
Języki klasyfikacyjne (sztuczne) używają słownictwa sztucznego. EJL pojawiające się w zdaniach pełnia określoną funkcję. We wszystkich językach informacyjno-wyszukiwawczych wyróżnia się dwa typy jednostek leksykalnych:
autosyntaktyczne jednostki leksykalne, mogą one samodzielnie tworzyć zdania
synsyntaktyczne elementarne jednostki leksykalne, czyli nie samodzielne jednostki (słownictwo pomocnicze)
Słownictwo języków sztucznych jest znacznie uboższe w sferze leksykalnej od języka naturalnego. Tylko niektóre wyrażenia występujące w języku naturalnym są potrzebne do odtworzenia formy i treści dokumentu w danym systemie informacyjno wyszukiwawczym.
Systemy słownikowe – struktura zbudowana jest ze znajdujących się w słowniku wykładników językowych znaczeń, jakie można wyrazić w danym języku. Biorąc pod uwagę słownik danego języka, można wyróżnić:
JIW o słownictwie swobodnym (nie da się pokazać, bo istnieje np. w naszej głowie)
JIW o słownictwie kontrolowanym (posiada jawny słownik o charakterze normatywnym, przykładem jest UKD)
JIW o słownictwie częściowo kontrolowanym (posiada słownik o charakterze częściowo jawnym)
TYPY SŁOWNIKÓW
Słowniki wyliczające Elementarne Jednostki Leksykalne.
Słowniki zawierające zdania w danym języku.
Słowniki negatywne –„STOP LISTA” zbiory wyrazów, których nie wolno używać np. słownik wulgaryzmów
Rodzaje uporządkowania EJL:
Losowe, przypadkowe, (ale tak nie powinno być)
Formalne, np. według alfabetu
Semantyczne (według znaczenia, np. czasopisma podzielone na dzienniki, tygodniki, miesięczniki itd.).
Mieszany (np. alfabetyczno-semantycznie)
15.11.2007 – Systemy semantyczne JIW
System semantyczny danego języka jest utożsamiany z polem semantycznym języka.
POLE SEMANTYCZNE – jest to struktura zbudowana ze znaczeń (treści), jakie można wyrazić w danym języku za pomocą środków (relacji), którymi język ten dysponuje. Pole semantyczne ma treść i zakres.
Zakres – np. wszystkie stworzenia, którym można przyporządkować jakąś nazwę
Treść – cechy pewnych obiektów, zbiór cech
Każda jednostka leksykalna ma TREŚĆ [ in. konotacje, intencje] i ZAKRES [in. denotacja, ekstensja].
SYSTEMY RELACYJNE – między jednostkami leksykalnymi zachodzą relacje, czyli związki pewne, które mogą zachodzić pomiędzy przedmiotami, ludźmi, np. pokrewieństwo. W JIW relacje to związki zachodzące pomiędzy jednostkami leksykalnymi w słowniku i/lub w tekście.
Relacje mogą być:
- pozajęzykowe np.: pokrewieństwo, odległości między planetami [wszystko to, przykłady Babika]
- językowe, znajdujące się w kontekście, w tekście lub słowniku miedzy wyrazami.
Relacje w JIW wyrażają bezpośrednio związki pomiędzy klasami dokumentów, których nazwami są klasy dokumentów. Relacje te odwzorowują związki między terminami.
TERMIN – jest to wyraz, nazwa o ściśle określonym znaczeniu.
W zależności od miejsca występowania wyróżniamy dwa typy relacji:
PARADYGMATYCZNE - słownikowe (występujące w słownikach)
SYNTAGMATYCZNE - tekstowe (występujące w tekście)
RELACJE PARADYGMATYCZNE:
Relacje synonimii wyszukiwanej
Relacje hierarchiczne
Relacje generyczne (określają rodzaj, gatunek)
Relacje mereologiczne
Relacje hierarchii tematycznej
Relacje współrzędności
Relacje kojarzeniowe
RELACJE SYNTAGMATYCZNE: wykładnikami tych relacji są np.:
Znaki łączące jak w UKD
Wskaźnik więzi (połączenie)
Wskaźnik roli (funkcja)
Wskaźnik wagi (znaczenia)
Algebra Boole’a
Typy struktur pola semantycznego (trzy podziały)
W zależności od typów relacji wykorzystywanych do organizacji pola semantycznego.
Monorelacyjne
Polirelacyjne
W zależności od rodzaju generowanych układów struktur leksykalnych.
A-hierarchiczne
Monohierarchiczne
Polihierarchiczne
W zależności od dopuszczalnej liczby wystąpień pojęcia danej jednostki leksykalnej.
Monopozycyjne
Polipozycyjne
Nie pamiętam jakie jeszcze???
Typy struktur pola semantycznego (modele)
Struktura płaska (ahierarchiczna) np. klasyczne języki słów kluczowych [ 0 ]
Struktura monorelacyjno-monohierarchiczna, taksonomie są stosowane w JIW [ 1,1 ]
Struktura monorelacyjno-polihierarchiczna, klasyfikacja pozornie fasetowa np. UKD [ 1, 0 ]
Struktura polirelacyjno-monohierarchiczna, klasyfikacje biblioteczno-bibliograficzne [ 0, 1 ]
Struktura polirelacyjno-polihierarchiczna, struktura fasetowa [ 0, 0 ]
RELACJE KOJARZENIOWE – opierają się na podobieństwie treści. W JIW mają dużą wartość wyszukiwawczą. Są charakterystyczne dla poszczególnych dziedzin. Zwykle mają charakter pozajęzykowy. Wykorzystują schematy – część-całość, przyczyna-skutek.
Przykłady:
Proces – urządzenie do wykonywania czynności (drukować-drukarka)
Produkt – wykonawca (produkt-producent)
22.11.2007 – Systemy gramatyczne JIW
Gramatyka odnosi się do 5 poziomów JIW. Zarówno do elementarnych jednostek leksykalnych jak i tekstu.
SYSTEM GRAMATYCZNY – jest to zbiór zasad dla każdego poziomu, określające struktury języka, które połączenia wyrażeń, przyjmuje się za wyrażenia danego języka.
1. System gramatyczny według E. Ścibora (nie jest jego twórcą, tylko go omówił w na początku l. )
2. System gramatyczny B. Bojar.
Ad. 1 E. Ścibor wymienił 4 rodzaje gramatyki:
Zerowa – charakterystyczna dla języków, które posługują się jedną zasadą „o niedołączaniu”. Nie jest tu możliwe żadne połączenie wyrażeń elementarnych, nie ma tu wyrażeń złożonych. Istnieją natomiast zdania elementarne, składające się z jednej elementarnej jednostki, to znaczy, że status EJL zmienia się na zdanie w JIW. Ten typ gramatyki stosuje się w klasyfikacji wyliczającej.
Pozycyjna – charakterystyczna dla JIW, w których miejsce elementarnej jednostki leksykalnej jest ściśle ustalone. Zmiana miejsca położenia elementarnych jednostek leksykalnych powoduje zmianę znaczenia całego zdania. Stosowana jest w klasycznych językach haseł przedmiotowych i Dwukropkowej Hierarchii Ranganathana. Przykłady: filozofia-historia ( to znaczy historia filozofii), historia-filozofia (historiozofia, filozofia historii, jak rozwija się historia).
Częściowo-pozycyjna – występuje w tych językach, w których miejsce autosyntaktycznych jednostek leksykalnych jest dowolne, a synsyntaktycznych jest niezmienne. Gramatyka ta wykorzystuje wskaźniki roli, więzi, modyfikatory lub deskryptory aspektowe. Ten typ gramatyki stosowany jest m.in. w językach deskryptorowych.
Nie pozycyjna – jest to gramatyka opozycyjna do gramatyki pozycyjnej. Jest stosowana w JIW gdzie jednostki leksykalne są ułożone w dowolnej kolejności. Losowa kolejność występowania EJL w obrębie zdania jest istotą indeksowania współrzędnego. Jest stosowana w klasycznych językach słów kluczowych.
Ad. 2 B. Bojar wymieniła 4 rodzaje gramatyki:
Zerowa – brak jest wykładników relacji syntagmatycznych. Wykładnikami tymi są: wskaźnik więzi, roli, wagi i algebra Boole’a, w związku z tym kolejność wyrażeń elementarnych w zdaniu JIW jest dowolna. Gramatyka stosowana w językach słów kluczowych i językach deskryptorowych bez wykładników relacji syntagmatycznych.
Pozycyjna – jest stosowana w JIW, w których relacje syntagmatyczne są wyznaczone przez pozycje wyrażeń elementarnych w wyrażeniu złożonym. Ten typ gramatyki jest stosowany gdy wykładnikami relacji syntagmatycznych są wskaźniki roli np. w niektórych językach deskryptorowych, językach haseł przedmiotowych lub wskaźniki przynależności jak np. w Dwukropkowej Hierarchii Ranganathana.
Częściowo-pozycyjna – stosowana gdy niektóre pozycje elementarnych jednostek leksykalnych w wyrażeniu złożonym, pełnią funkcję relacji syntagmatycznych. Stosowana np. w językach deskryptorowych, w których modyfikatory znajduje się po deskryptorze.
Nie pozycyjna – jest stosowana w JIW, w których wykładniki relacji syntagmatycznych mają inny charakter niż pozycja wyrażenia elementarnego w wyrażeniu złożonym. Kolejność wyrażeń może być dowolna ale nie musi.
Wskaźnik wagi – wykładniki językowe wskazujące na znaczenie danego zagadnienia w ramach danego dokumentu, np. przekreślone zero „Ø”, wskazuje, że warto zwrócić uwagę na dany artykuł lub pozycję.
Wskaźniki więzi – pokazują, które elementy w opisie (słowa kluczowe) są ze sobą połączone, np.: RURY/1MIEDŹ/2 DACH/2 OŁÓW/1
Są to wykładniki językowe łączące elementy wyszukiwawcze, które oddają właściwy sens zdania. Akurat to zdanie mówi, że szukamy czegoś na temat ołowianych rur i miedzianych dachów, a nie odwrotnie
Wskaźniki roli – nie mam pojęcia.
06.12.2007 – Systemy pragmatyczne JIW
Pragmatyka to część semiotyki, która zajmuje się posługiwaniem i stosowaniem JIW. Nazwy dla posługiwania się, JIW to:
Tematowanie (posługiwanie się językiem haseł przedmiotowych)
Klasyfikowanie (posługiwanie się UKD)
Indeksowanie (używanie języków słów kluczowych i języków deskryptorowych)
INDEKSOWANIE – jest to proces/czynność sporządzania charakterystyki słownej treści dokumentu lub pytania informacyjnego i jej przekład na JIW, np. tworzenie haseł przedmiotowych.
ETAPY INDEKSOWANIA:
DOKUMENT TEKSTOWY
CHARAKTERYSTYKA SŁOWNA DOKUMENTU W JĘZYKU NATURALNYM
SŁOWA KLUCZOWE, SYMBOLE KLASYFIKACYJNE, JĘZYK SZTUCZNY, JIW
TEKSTY JIW
CHARAKTERYSTYKI WYSZUKIWAWCZE DOKUMENTÓW, np. karta katalogowa, opis bibliograficzny, opis przedmiotowy.
Parametry indeksowania ( to jest pytanie na egzamin)
Szerokość indeksowania
Szczegółowość indeksowania (in. głębokość)
Szerokość indeksowania – jest to stopień odzwierciedlenia w CHWD lub instrukcji, treści danego dokumentu.
Szczegółowość – jest uzależniona od szczegółowości słownika JIW. Mierzy się ją liczbą jednostek leksykalnych użytych w CHWD, czyli w tekstach JIW.
RODZAJE INDEKSOWANIA
Intelektualne, w starszej literaturze manualne (posługujemy się głową i rozumiem)
Jest to indeksowanie swobodne, opiera się na słowniku nie jawnym – głowie.
Może być to indeksowanie słownikowe, in. normatywne, gdy opieramy się na słowniku jawnym np. na tablicach UKD.
Trzeci rodzaj indeksowania intelektualnego to indeksowanie współrzędne.
Automatyczne (3 metody)
Indeksowanie statystyczne, TEORIA WARTOŚCI INFORMACYJNEJ SŁOWA, twórcą tej teorii jest H. P. Lunh. Do tego rodzaju indeksowania potrzebny jest program, który wybiera słowa względem częstotliwości ich występowania. Efektem jest powstanie krzywej Gansa, która określa wartość informacyjną.
Rachunek prawdopodobieństwa
Metody syntaktyczne (opierają się na teorii języków formalnych w zbiorze znaczników frazowych).
TRYBY INDEKSOWANIA
Indeksowanie uogólniające (zwiększa kompletność, zmniejsza dokładność)
Indeksowanie wyszczególniające (zmniejsza kompletność, zwiększa dokładność)
– Porównywanie i ocena JIW. Wybrane typologie JIW.
Klasyfikacja w nauce to czynność/operacja dokonywana na zbiorze elementów. Jest to przydzielanie poszczególnych elementów do wcześniej przygotowanego schematu klas. Nie powinno być takich elementów, które mogą być przydzielone do kilku klas jednocześnie. Wszystkie elementy powinny być rozdzielone w klasy. (W. Babik przedstawił to na przykładzie worków). Aby dobrze klasyfikować, należy schematowi klasyfikacyjnemu nadać odpowiednie kryteria, według których będziemy dzielić elementy. Jednym z przykładów podziału, jest podział dychotomiczny – na dwie grupy. Może to być np. podział ze względu na płeć.
Typologia – jest to dopasowanie elementu do wcześniej ustalonych typów. Jest to operacja polegająca na porównywaniu z najbardziej odpowiednim typem do danego egzemplarza – elementu. Podziały te są jednak bardzo subiektywne. Typologie tworzymy, gdy różne elementy można dopasować do kilku podzbiorów.
Cel pragmatyczny (użyteczność)
Cel dydaktyczny (uporządkować wiedzę)
Cel teoretyczny (wzbogacenie naukowego dorobku)
Najstarszym JIW jest klasyfikacja biblioteczna np. w bibliotece Asurbanipala
JEAN - CLAUDE GARDIN – opracował jedną z pierwszych poważnych typologii JIW (1966 r. Biuletyn Bibliotek Francuskich) (mamy krytykować Gardina). Jest on twórcą typologii słowników JIW. Typologia ta polega na wielostopniowym dychotomicznym podziale słowników JIW. J. Gardin uznał, że słownik określa sam język.
Słowniki jawne
Słownictwo uporządkowane semantycznie
Listy pozytywne (można używać w indeksowaniu)
Listy negatywne (nie można używać w indeksowaniu, tzw. stop-listy)
Słownictwo uporządkowane formalnie, np. alfabetycznie
Słowniki niejawne
Podział języków informacyjno-wyszukiwawczych według J. Gardin’a
Języki deskryptorowe
Języki słownikowe
Języki klasyfikacyjne
E. F. SKOROCHODKO – Klasyfikacja semantyczna JIW.
Kryterium podziału były relacje zachodzące między elementarnymi jednostkami leksykalnymi w JIW. Skorochodko zbudował dwie oddzielne typologie JIW:
Klasyfikacja pragmatyczna (systemowa)
Klasyfikacja syntagmatyczna
A. I. CZERNY – Typologia według kryteriów połączeń.
Prekoordynowane: klasyfikacja biblioteczna, języki haseł przedmiotowych
Postkoordynowane: języki deskryptorowe, języki syntagmatyczne, kody semantyczne
E. ŚCIBOR – Typologia strukturalna JIW, 1981 rok
Kryterium tej typologii to różne elementy określające strukturę JIW. Tak rozległe kryterium sprawiło, że E. Ścibor wyodrębnił aż 1176 różnych typologii JIW. Schemat główny zredukował i ograniczył tylko do 174:).
BIBLIOTEKARZE – zwyczajowa typologia bibliotek
Klasyfikacje biblioteczno-bibliograficzne,
Języki haseł przedmiotowych,
Języki słów kluczowych,
Języki deskryptorowe,
Kody semantyczne.
Schemat opisu JIW | Język Słów Kluczowych | Języki deskryptorowe | Języki Haseł Przedmiotowych |
---|---|---|---|
Nazwa typu i/lub podtypów |
|
|
|
Charakter słownictwa | Słownictwo paranaturalne | Słownictwo paranaturalne lub mieszane | Słownictwo paranatuarlne |
Słownik |
|
|
|
EJL |
|
|
|
Relacje słownikowe | Klasyczny JSK nie odwzorowuje żadnych relacji | Wszystkie typy relacji | |
Gramatyka |
|
|
|
Zastosowanie | Systemy zautomatyzowane, specjalistyczne systemy informacyjne | Systemy informacyjno – wyszukiwawcze. | W katalogach bibliotecznych, dotyczy wszystkich dziedzin wiedzy, jak np. UKD |
Metodologia, normalizacja | Nie ma prawie zaplecza metodologicznego, ale istnieją instrukcje np. OPI – instrukcja Synaba za pomocą słów swobodnych | Polska Norma Tezaurusa, jednojęzyczny, zasady tworzenia, forma, struktura | NUKAT ?? |
20.12.2007 – Języki paranaturalne.
Grupę tych języków wyróżniono ze względu na słownictwo – ich charakter, notację. Do paranaturalnych języków informacyjno-wyszukiwawczych należą m.in.:
Języki słów kluczowych
Języki deskryptorowe
Języki haseł przedmiotowych
Bibliotekarze stosują te języki, na co dzień.
Tezaurus Informacji Naukowej – Ewa Chmielewska-Gorczyca, Ośrodek Informacji Naukowej [OIN] PAN, 1992.
03.01.2008 – Tezaurusy. Języki klasyfikacyjne.
– M. Nahotko – Języki deskryptorowe. Tezaurusy
W latach i nastąpił boom języków deskryptorowych, używanych szczególnie w bibliograficznych bazach danych. Słownikiem tego języka jest tezaurus!! Ale jak to określił dr Nahotko granica między słownikiem słów kluczowych, a tezaurusem jest bardzo płynna i nigdy tak naprawdę nie wiadomo, czy to jest tak rozbudowany Słownik Słów Kluczowych, czy tak ubogi Tezaurus . Tezaurusy SA zwykle wąsko-dziedzinowe.
Słownik ten operuje dwoma rodzajami terminów: deskryptorami i askryptorami.
DESKRYPTORY – słowo, określające obiekt; jest to najlepsze słowo użynane do określenia danego obiektu, jednemu deskryptorowi można przyporządkować kilka askryptorów.
ASKRYPTORY – termin zakazany, askryptorem może być w stosunku do deskryptora jego synonim lub słowo, termin rzadko używany lub archaiczny.
Tezaurus – słownik języka deskryptorowego, jednostkami leksykalnymi są tam deskryptory askryptory i modyfikatory. Tezaurus jest stworzony do indeksowania dokumentu w określonych sytuacjach w wąskich dziedzinach.
Między deskryptorami i askryptorami zachodzi relacja synonimii i równoleżności. Każdy deskryptor występuje w kontekście innych deskryptorów i askryptorów. Deskryptor występuje, więc w tezaurusie kilka razy. Istnieją deskryptory szersze, węższe i kojarzeniowe. Wszystkie deskryptory i askryptory tworzą razem artykuły deskryptorowe. Udoskonaleniem tezaurusów są tzw. „więzi” wskaźniki więzi to np. cyfry i szersze numery dotyczące tych samych tematów. Dzięki wskaźnikom łatwiej jest opisać i w szczególności powiązać dokumenty. Wskaźniki można podzielić na”
- wskaźniki roli tzw. modyfikatory
- wskaźniki wagowe.
1. Wielojęzyczny tezaurus „Eudised mehrsprachiger thesaurus zur Informationsersehliesung in…”
2. Thesaurus of Information Science Terminology. Claire K. Schultz
compressed Term Index. Alan Gilarist, M. Keen
4. Тезаурус, научно-технических терминов, Moskwa
5. PATIN, Eugeniusz Ścibor, Joanna Tomasik-Beck
6. Thesaurus of ERIC Descriptors
7. Thesaurus of psychological index term
8. Tezuarus naukoznawstwa,metalurgii i żelaza – procesy I aparatura chemiczna. PAN
Języki klasyfikacyjne są najstarszym typem języków informacyjno-wyszukiwawczych.
Najbardziej znane ośrodki, które badają JIW znajdują się w Wielkiej Brytanii (Londyn – CRG – Classyfication Research Group) oraz w Indiach (DRTC – Documentation and Research Trening Center).
Elementy opisu języka:
1. Nazwa typu JIW (systemy klasyfikacyjne, klasyfikacje, katalogi biblioteczno-bibliograficzne)
2. Słownictwo (naturalne, sztuczne)
3. Nazwa słownika (np. tablice UKD)
4. Nazwa jednostek leksykalnych (np. symbole)
5. Typy relacji
6. Stosowana gramatyka
7. Zastosowanie
8. Historia/geneza
9. Zaplecze metodologiczne (np. pragmatyka UKD)
Przegląd wybranych JIW – E. Ścibor.
Klasyfikacje tematyczne BSO, PKT przeznaczone do porządkowania dokumentów na półkach w bibliografiach itd., służą też do zarządzania systemami informacyjnymi, a także do określania zbiorów tematycznych, zbiorów systemów informacyjnych, tezaurusów itd. Określane zwykle w języku francuskim – nie pamiętam jak, rosyjskim – rubrykatory, polskim – klasy tematyczne.
Są to przeważnie mono hierarchiczne systemy z wyodrębnionymi poddziałami pomocniczymi. Są niegłębokie, ograniczające się do 2-4 stopni poddziału. Klasyfikacje odsyłają do bloków informacji, a nie do konkretnych dokumentów. Klasy tematyczne stanowią uzupełnienie do języków deskryptorowych. [PASCAL, MISION, POLSKA KLASYFIKACJA TEMATYCZNE – PKT, BSO – międzynarodowy schemat stworzony przez FID i UNESCO]
„CLEARINGHOUSE for thesauri and classyfication schemes” – spisy wszystkich opublikowanych tezaurusów, wydawane w Waszyngtonie i w Warszawie .
10.01.2008 – Nowe typy JIW.
Języki kodów semantycznych
Języki syntagmatyczne
Języki opisu bibliograficznego
Język meta danych
JĘZYKI KODÓW SEMANTYCZNYCH (JKS) – są to języki sztuczne, słowniki tych języków zawierają stosunkowo nieliczne jednostki leksykalne, tylko najgłówniejsze pojęcia tzw. prymitywy. Prymitywy to jednostki leksykalne, które nie mają znaczeń. Kody semantyczne były budowane na podstawie/zasadzie tzw. Języka semantycznego.
Język semantyczny (cechy):
Jest pozbawiony synonimii i homonimii,
Opiera się na z góry określonym zbiorze wyrażeń, reprezentujących elementarne znaczenia (prymitywy semantyczne lub mnożniki semantyczne).
Do najbardziej znanych JIW tego typy zalicza się m.in.:
Język ASM – WRU, lub po prostu nazywany Kodem Semantycznym, 1954-59 – USA. Za twórców języka uważany jest A. Kent, J. W. Perry (i M. Barry, ale to była kobieta, więc się ją pomija ). Zbudowano go na potrzeby systemu informacyjnego z dziedziny metalurgii w ośrodku badań z zakresu dokumentacji i przekazywania informacji WRU – Western Reserve University – Cleveland. ASM – American Society for Metals, czyli Amerykańskie Stowarzyszenie Metalurgów. Słownik tego języka składał się z kilkunastu kartek i zawierał tylko 214 jednostek leksykalnych, tzw. mnożników semantycznych ułożonych alfabetycznie. Sposób tworzenia jednostek leksykalnych: wykreślano ze słów wszystkie samogłoski, a następnie (zaczynając od końca wyrazu) wykreślano również spółgłoski, aby uzyskać postać „czteroznakową”. Puste miejsca zapełniano samogłoskami określającymi relacje (a, e, i). Relacje „i” – typu część-całość; relacje „a” zawiera się w jakiejś klasie; relacje „e” oznacza być produktem.
ANIMAL N_ML NAML np. psy, NEML np. szynka
FISH F_SH FASH np. sardynki, FESH np filety rybne ;)
MILITARY M_LT
SCIENCE S_CN
W języku tym istnieją też wskaźniki roli in. relacje syntagmatyczne – tekstowe, np.:
KEJ – materiał przetworzony
KUJ – składnik
KAM – proces
KAJ – surowiec
Język RX Kodów, 1960-64 – ZSRR. Stworzony przez E. F. Skorohodko; L. E. Pszeniczną; T. N. Griznuchina. Język stworzony na potrzeby radiotechniki i komunikacji w Instytucie Cybernetyki Radzieckiej Akademii Nauk w Kijowie. Schemat tworzenia wyrażeń w tym języku: X1 = R1 X2 R2 X3. X – to jednostki leksykalne, R – relacje.
Uniwersalny Kod Semantyczny W. W. Martynowa – ZSRR, 1977
Olgierd Adrian Wojtasiewicz, Bożenna Bojar, Barbara Sosińska-Kalata – POLSKA.
Waclav Smetaček – CZECHOSŁOWACJA.
JĘZYKI SYNTAGMATYCZNE
Język SYNTOL ( Syntagmatic Organization Language – R. C. Cross, J. C. Gadrin, F. Levy)
Podstawową zasadą syntolu jest wyodrębnienie syntagm, czyli elementarnych jednostek leksykalnych składni. Język został stworzony w latach 1960-62 dla potrzeb systemu Euratom. System działał w Narodowym Ośrodku Badań Naukowych we Francji (CNRS – Paryż).
Niektóre JIW stosowane są przede wszystkim do opisu formalnego. (Elementy formalne to elementy opisu bibliograficznego). Typy JIW nakierowane na elementy formalne:
Języki opisu bibliograficznego
Języki cytowań bibliograficznych
Języki meta danych.
Ad. 2
Twórcą języka cytowań bibliograficznych jest Eugene Garfield (USA). Cechy języka:
- słownictwo mieszane
- słownik: nazw, tytułów, nazw miejscowości itd.
- jednostki leksykalne to elementy opisu bibliograficznego
- wszystkie typy relacji
- stosowanie dwu rodzajów gramatyki: „?” i częściowo-pozycyjnej
- zastosowanie: w bibliografiach, indeksach itp.
17.01.2008 – Języki systemów faktograficznych.
Preserved Context Index System – PRECIS, jest to system indeksu przedmiotowego z zachowaniem kontekstu. Opracował go Derek Austin z Wielkiej Brytanii. Powstanie tego języka wiąże się z automatyzacją angielskiej bibliografii narodowej w latach . Kolejność słów w tym języku nazywa się „sznurkiem wejściowym terminów”. Gramatyka opiera się na wskaźnikach roli.
Języki systemów faktograficznych to JIW stosowane w systemach dokumentacyjnych, ekspertowych, multimedialnych, hipertekstowych, faktograficznych. Języki te opisują obiekty, przedmioty, fakty, osoby. Odsyłają one bezpośrednio identyfikują obiekt (dokument) i informują o nim.
Systemy faktograficzne dzielą się na: dedukcyjne i nie dedukcyjne. Dedukcyjne oparte są na wnioskowaniu, nie dedukcyjne natomiast, głównie na porównywaniu.
Informacja faktograficzna – występuje w systemie faktograficznym, jest to informacja jednostkowa o obiekcie, osobie, fakcie itd. Jest to „coś” stwierdzającego istnienie cechy danego obiektu, przedmiotu, faktu, osoby. Informacja faktograficzna może występować w postaci: liczbowej, opisowej i graficznej (np. wykres, rysunek, fotografia, animacja).
Są różne stosowane nazwy na określenie typów tego języka:
Obiekt - atrybut
Obiekt - cecha
Przedmiot - własność
Typ prostych systemów faktograficznych
PRZYKŁAD: CZŁOWIEK [OBIEKT] WIEK, WZROST, WAGA, KOLOR OCZU [CECHY]
Każda z cech ma swoją wartość.
Trzy elementy opisu to „triada”. Słownik języków systemów faktograficznych ma budowę modułową. Składa się z trzech grup:
Nomenklatury obiektów
Nomenklatury cech
Nomenklatury wartości.
Język systemów faktograficznych stosuje gramatykę pozycyjną i częściowo-pozycyjną.
Typy języków w prostych systemach faktograficznych:
Ankietowe – opierają się na formularzach
Języki służące do tworzenia tablic pasmetrycznych ?
Języki „a priori” – mają usystematyzowaną nomenklaturę i nazewnictwo
Języki „apos priori” – zależnie od przyjętej metody budowy słownika
27.02.2008 – Metodyka projektowania JIW
Istnieją dwa podejścia w projektowaniu:
Podejście systemowe (język jako system – 3 elementy języka połączone ze sobą relacjami, hierarchiczne powiązania).
Podejście sieciowe (język jako sieć – Język traktuje się, jako sieć, gdzie wszystkie elementy są równe, nie ma relacji hierarchicznych, nie ma nadrzędności i podrzędności, poszczególne elementy połączone są różnego typu relacjami, głównie relacjami kojarzeniowymi).
Projektowanie języka jest zwykle elementem projektowania systemu informacyjno-wyszukiwawczego Słownikami takich systemów są tzw. SŁOWNIKI PRAKTYCZNE. Języki, które projektuje się dla konkretnej dziedziny, a są wykorzystywane przez różne systemy informacyjne, mają SŁOWNIKI TEORETYCZNE. [np. Słownik słów kluczowych slawistyki, należy do słowników praktycznych bo został zaprojektowany dla systemu slawistycznego].
Inne dwa podejścia/ujęcia projektowania JIW:
Diagnostyczne (mamy język, badamy go, testujemy, wyszukujemy błędy, modyfikujemy, udoskonalamy usuwając błędy).
Prognostyczne (budujemy nowy język)
DWIE METODOLOGIE STOSOWANE PRZY BUDOWANIU JIW:
Miękka (soft methodology – P.B. Checkland)
Twarda (hard methodology – jasno określone reguły postępowania, nie są dopuszczalne odstępstwa od normy).
STRUKTURA PROCESU PROJEKTOWANIA
Projektowanie zakresu i pola semantycznego JIW.
Metody wyboru terminów [są to metody gromadzenia słownictwa]
Metoda indukcyjna – polega na indeksowaniu dokumentów
Metoda dedukcyjna – wykorzystywanie istniejących już usystematyzowanych zbiorów słownictwa, np. z leksykonów, encyklopedii, tezaurusów, słowników słów kluczowych, Słowników haseł przedmiotowych, indeksów rzeczowych, drukowanych katalogów, podręczników itp.
Metoda indukcyjno-dedukcyjna, lub dedukcyjno-indukcyjna (połączenie dwóch w/w metod, z naciskiem na jedną z nich)
Opracowanie, strukturalizacja, systematyzacja słownictwa.
Metoda definicyjna.
Metoda hierarchizacje (hierarchiczne drzewa).
Kategoryzacja semantyczna (tworzymy kategorie znaczeniowe, np. ludzie i wymieniamy nazwiska).
Prezentacja słownictwa w postaci słownikowej.
Słownictwo przedstawiamy za pomocą słowników np. jawnych
Projektowanie gramatyki języka.
12.03.2008 – Ośrodki badawcze zajmujące się JIW w Polsce i na świecie.
OSOBY:
Olgierd Ungurian – autor pierwszego w Polsce podręcznika z zakresu JIW, zajmował się teorią klasyfikacji Randganathana. Studiował w Moskwie nauki techniczne. W Polsce zajmował się głównie UKD. Napisał szereg opracowań tej klasyfikacji.
Olgierd Adrian Wojtasiewicz – zajmował się głównie problematyka kodów semantycznych.
Bożenna Bojar – językoznawca,
Jadwiga Sadowska – zajmowała się głównie językami haseł przedmiotowych
Ewa Chmielewska-Gorczyca – autorka Tezaurusa Informacji Naukowej, startowała w konkursie miss Świata
INSTYTUCJE ZWIĄZANE Z UCZELNIAMI< INSTYTUTY NAUKOWO-BADAWCZE:
INTE – Instytut Informacji Technicznej i Ekonomicznej. W ośrodku tym funkcjonowała jednostka JIW, prowadzona przez Eugeniusza Ścibora. W licznych pracach pomagała mu natomiast Lucyna Anna Bielicka.
UW – Instytut Informacji Naukowej i Studiów Bibliologicznych, z ośrodkiem tym związana jest Jadwiga Woźniak-Kasperek.
Warszawska Szkoła JIW – szkoła ta w swym czasie spłodziła wielu doktorów m.in. Wiesława B.
ORGANIZACJE I STOWARZYSZENIA PROFESJONALNE:
Polskie Towarzystwo Informacji Naukowej i Technicznej – Katowice
ISKO, a może ISCO? Nie jestem pewna.
ŚWIAT – Osoby:
Jean-Claude Gardin (Francja) – twórca typologii słowników JIW, podział wielostopniowy dychotomiczny 1966 rok.
Karen Spark Jones (Wielka Brytania) – zajmowała się badaniem lingwistycznych podstaw JIW, specjalizowała się w językach słów kluczowych oraz automatycznych indeksach.
Arkadij Iwanowicz Czerny – twórca kolejnej klasyfikacji podobnie jak Gardin
INSTYTUCJE:
Western Reserve University – Cleveland (USA) – wiąże się ze stworzeniem kodu semantycznego – ASM WRU przez Kent’a I Perry’ego
Ośrodek Badan Naukowych we Francji (Paryż) CNRS – stworzenie języka syntagmatycznego SYNTOL przez Jean-Claude Gardin’a.
Amerykańskie Stowarzyszenie Informacji Naukowej i Technologii – ASIST, funkcjonujące od 1927 roku. Najbardziej znanymi dyrektorami tej placówki byli m.in.: James W. Perry, Harold Borko, Michael Buckland, Eugene Garfield, Nicolas Belkin.
OCLC
DRTC (Documentation Research Training Center) – Indie, Bangalore, Centrum Badań Dokumentacyjnych i Szkoleń. W instytucie tym, badacze zajmują się głównie dwu kropkową klasyfikacją Ranganathana. Obecnie opracowano już 7 wersji aktualizacji. Organizacja powstała w 1962 roku.
CRG (Classification Research Group) – Londyn, 1952 rok. Ośrodek skupia specjalistów zakresu JIW. Stworzono tu wiele klasyfikacji fasetowych w tym również klasyfikację Informacji Naukowej. Z ośrodkiem tym wiąże się także Teoria poziomów zintegrowanych.
Rodzaj gramatyki | Typologia wg E. Ścibora | Typologia B. Bojar (nowa typologia) |
---|---|---|
zerowa | - reguła o niedołączaniu - możliwe tylko zdania jednoelementowe - np. klasyfikacje monohierarchiczne wykorzystujące porządkowanie książek na półkach |
- brak wykładników relacji syntagmatycznych - kolejność wyrażeń jest dowolna - np. klasyczny język słów kluczowych |
pozycyjna | - miejsce każdej jednostki w zdaniu jest ściśle ustalone - np. języki haseł przedmiotowych |
- relacje syntagmatyczne są wyrażane przez pozycję wyrażeń elementarnych w wyrażeniu złożonym - np. języki deskryptorowe, języki haseł przedmiotowych |
Częściowo pozycyjna | - miejsce niektórych jednostek leksykalnych w zdaniu jest określona ściśle a innych dowolna - stosowana w UKD |
- funkcje wykładników relacji syntagmatycznych pełnią niektóre pozycje wyrażeń elementarnych w wyrażeniu złożonym - np. wyrażenia deskryptorowe - modyfikatory |
niepozycyjna | - szyk dowolny - przeciwieństwo gramatyki pozycyjnej - dowolna, losowa kolejność występowania jednostek leksykalnych w zdaniu - relacja współwystępowania, wszystkie jednostki leksykalne mają taki sam status |
- relacji syntagmatycznych mają inny charakter niż pozycja wyrażenia elementarnego w wyrażeniu złożonym - np. język haseł przedmiotowych, wskaźniki w określonej kolejności |
Typologia tezaurusów
- tezaurusy jedno-, dwu- i wielojęzykowe (kryterium językowe)
- tezaurusy tradycyjne lub elektroniczne (kryterium formy)
- tezaurusy ogólne i specjalistyczne (kryterium tematu)
- tezaurusy branżowe, dziedzinowe, nadrzędne, makrotezaurusy (kryterium zakresu pola semantycznego)
- tezaurusy alfabetyczne, alfabetyczno-hierarchiczne, fasetowe, graficzne, permutacyjne (kryterium cech formalnych: układ i forma prezentacji słownictwa)
Tezaurusy obcojęzyczne z zakresu INiB:
"Information science thesaurus" C.K. Schulz
"Thesaurus Bureau Marcel Van Dijk”
„Informacionno-poiskovyj tezaurus po informatike"
"Thesaurus of information technology terms"
"The librariens thesaurus"
"Asis thesaurus of information science and librarianship"