»«VW»), i nutu imirmiiii ■ ttWWF Cm" fc, "‘Mci łych miir (ratom ji jś listy bestsellerów. Mury te Irśloim s,j C!fllo Mo uzupełnienie miar opartych na cytowaniach. Niektórzy autorzy umąij, k na /c/,r podstawie moina wnioskować o późniejszych cytowaniach (Brody, llartml, Ciur 200/5 h Problemy stwarza potrzeba ujednolicenia wyników lak, aby można było je porównywał dh'! czasopism o różnych objętościach, rodzajach i w odmiennych dyscyplinach. PoiwfeJ Mźe pytonie, czy skopiow anie artykułu przez studenta jest równic ważne, jak skop/ow-jj nie przez profesora.
hórcy inicjatywy o nazwie Indet Copemicuswyszli z założenia, że żadna z miar pojedynczo nic odzwierciedla jakości publikacji. Stworzyli oni wieloparametrowy syn. I fem oceny czasopism naukowych, biorąc pod uwagę pięć grup parametrów o różnych I wagach: jakość naukowa (58% punktów do uzyskania), jakość wydawnicza (20%), 2a. j sity> międzynarodowy (U,5%), c/ysfofliwość. regularność, stabilność rynkowa (5%) oraz jako# techniczna (.1,5%) (Pankiewicz 2008], Dopiero uwzględnienie wielu parametrów i ze wszystkich grup umożliwia obiektywny ocenę czasopisma oraz stwarza możliwość ich I porównywania.
Miary jakości publikacji są szczególnie przydatne przy założeniu, że mogą objąć jak I największy liczbę publikacji; najlepsza jest sytuacja, gdy wszystkie artykuły naukowe I udostępniane sy w GBC, Wówczas możliwości badań naukomefryc/nych znacznie prze• | kraczajy ocenę jakości publikacji, umożliwiajyc na przykład badanie kierunków rozwoju I nauki, powiyzań pomiędzy ośrodkami naukowymi oraz znaczenie poszczególnych ośrod-1 ków badawczych i uczonych.
Dla tak obszernego i rozległego systemu, jakim jest globalna biblioteka cyfrowa, nie• I zbędne jest stworzenie metodologii, pozwalającej na standardowy ocenę i pomiar funkcjonowania GBC jako całości, a także jej poszczególnych serwisów, informacji, którą zawierają i usług przez nic św iadczonych, Ocena może być jednorazowa lub prowadzo-1 na długotrwale, pozwalając na stałe uściślanie i aktualizację celów, warunków i rodzaju I usług. Ta druga realizowana jest często na początku wprowadzania określonej usługi bi-1 blioteki cyfrowej, czyjej podsystemu, służąc weryfikacji przyjętych założeń. Możliwe jest zbadanie reakcji użytkowników na udostępnienie określonych usług jako części systemu,
Ocena długotrwała pozwala poznać potrzeby użytkowników oraz sformułować poprawne miary na początku tworzenia nowych usług.
Ocena jednorazowa prowadzona jest na końcu procesu tworzenia usług. Dzięki niej I można się dowiedzieć, czy cele i warunki założone podczas projektowania zostały osiągnięte. Cele serwisów GBC mogą tworzyć wielopoziomowe struktury hierarchiczne, I czasem nawet ze sobą nawzajem sprzeczne. Ocena poprzez cele nigdy nie jest ostateczna i niezmienna. Ten sam serwis może być oceniany na różnych poziomach, w związku z wyborem różnych celów, za pomocą różnych metod i dla różnych odbiorców.
Niektórzy autorzy rozróżniają także ocenę systemów wyszukiwania danych i informacji (Baeza-Yates, Ribeiro-Neto 1999, s. 73]. Dla oceny dowolnego, tradycyjnego systemu wyszukiwania danych, najprostszymi kryteriami jest czas i przestrzeń. Im krótszy jest czas odpowiedzi, im mniej pamięci dyskowej jest wykorzystywane, tym lepszy jest oceniany system. W przypadku tych systemów należy zwracać uwagę na efektywność funkcjonowania struktur indeksowych (tworzonych w celu przyśpieszenia wyszukiwania), współpracy z systemem operacyjnym, opóźnienia spowodowane przez kanały komunikacyjne (łącza) oraz przez kolejne warstwy oprogramowania, zazwyczaj składające się na system. Taki sposób oceny nazywany jest oceną funkcjonalną (performance ewlualion).
Ta sama ocena dla wyszukiwania w Webie jest bardziej skomplikowana, zakłada bowiem uwzględnienie dwóch czynników: 1) czasu, niezbędnego do odszukania relewantnej25 jed-
11 hUp://\v\v\v.indcxcopemicus.com/.
■ Rdewancju to ocena wartości informacji. Jest to relacja, której argumenty umieszczane są rozmaicie: a)
. danych, oraz 2) liczby węzłów sieci, niezbędnych do przejścia w celu odszukania Paninej jednostki danych (Palmquist, Kim 2000, s. 558), rC'ntt systemów wyszukiwania informacji, poza oceną czasu i miejsca, stosowane są tak-■ ne kryteria i miary. Ze względu na to, Ze zapytanie użytkownika jest ze swej natury ,C ' cisie, dokumenty stanowiące wynik wyszukiwania w różnym stopniu odpowiadają - notrzebom i muszą być grupowane według ich rclewancji do zapytania. Ranking podstawie relewancji wprowadza do wyszukiwania element, który me jest obecny yjtemach wyszukiwania danych, a który odgrywa ważną rolę w wyszukiwaniu inforl *nCji Systemy wyszukiwania informacji wymagają więc określenia trafności (precim) n. dobierany jest zbiór wyników. Taki sposób oceny nazywany jest oceną funkcjonał wyszukiwania (retriml performance ewluaiion),
4 Dla oceny funkcjonowania komunikacji naukowej w środowisku cyfrowym, w tym roli serwisów GBC, przydatne jest ustalenie zestawu wskaźników1'1, które są podstawą stan jardowej i poddającej się zarządzaniu metody pomiaru poziomu działalności serwisu, po zwalają także na dokonywanie porównań pomiędzy jego elementami. Powszechnie znane klasyczne miary efektywności systemów wyszukiwania informacji - trafności i komplet ności - opierają się na ocenie relewancji technicznej, w małym stopniu dotyczą więc po ziomu zadowolenia użytkownika (pertynencji). O ile jednak miary te mogą być stosowane do poszczególnych serwisów GBC, to ocena efektywności wyszukiwarek internetowych i GBC jako całości przy ich pomocy napotyka na wiele trudności, a nawet negowany jest sens takiej oceny [Bojar 2009, s. 19]. W systemach tradycyjnych (przcdintemetowych) zakładana była potrzeba uzyskiwania wysokiej kompletności. W większości współczesnych systemów interaktywnych użytkownicy oczekują wyszukania tylko kilku najbardziej rele-wantnych dokumentów, więc zależy im raczej na uzyskaniu wysokiej trafności. Dodatkowo badanie kompletności wyszukiwania, realizowanego przez wyszukiwarki internetowe, jest praktycznie niemożliwe, gdyż do tego celu niezbędna jest znajomość liczby wszystkich dokumentów relewantnych, tej zaś nie można uzyskać. Istniejące metody pozwalają jedynie na zgrubne szacowanie tej liczby [Choroś 2002]. Dużo łatwiejsza do wyliczenia jest trafność wyszukiwania. Ta jednak istotna jest dla badania efektywności wyszukiwania w małych zbiorach, chociaż również tam nie dotyczy pertynencji.
W zastosowaniach internetowych twórcy wyszukiwarek typu ogólnego nastawiają się na podwyższanie trafności (chodzi zwłaszcza o trafność wyników wyświetlanych na pierwszym ekranie), dążąc do wydobycia obiektów możliwie wysoko relewantnych z ogromnej masy (często dziesiątków milionów stron Web)pozycji odszukanych. Stąd teź wyszukiwarki automatycznie i standardowo łączą wprowadzane terminy wyszukiwawcze funktorcm AND, którego użycie poprawia trafność kosztem kompletności wyszukiwania. Zdarza się także rozróżnianie trafności wyników wyszukiwania, od trafności opisów, wyświetlanych przez wyszukiwarki jako wyniki; trafność tych ostatnich jest zwykle wyższa [Lewandowski 2008, s. 929].
W każdych warunkach słabą stroną obu miar jest ich uzależnienie od relewancji; działają one tylko w przypadku, gdy relewancja, jako prawdopodobieństwo zbieżności pomiędzy relewancją systemową a relewancją użytkownika może być jednoznacznie określona. Nie zawsze się to udaje [Saracevic 2007, s. 1918], Relewancja pragmatyczna, użytkowni-
w sfera relacji zachodzących między zbiorami wyszukiwawczymi SIW i tekstami UW w planie wyrażania (relewancja techniczna) i/lub w planie treści (relewancja semantyczna); b) w sferze relacji między zbiorami informacyjnymi SIW i elementami jego otoczenia, np. potrzebę informacyjną użytkownika, jego wiedzą oraz celami działania (relewancja pragmatyczna) (Bojar oprać. 2002, i, 229J,
Wskaźnik funkcjonowania serwisu jest zazwyczaj definiowany jako określona wartość tub charakterystyka służąca do pomiarów wyników lub rezultatów. Są to miary jakości usług, efektywności działania i satysfakcji użytkowników. Wskaźniki mogą być ilościowe (np. czas przetwarzania) lub jakościowe (np. satysfakcja użytkownika).
129