Znrównp elektroniczne, jnk i drukowane publikacje naukowe, w których la podstawowy jednostkę uważany jest artykuł w czasopiśmie naukowym, powstają nu podstawie zbiorów danych empirycznych [Mi xt’lĄ tworzonych w trakcie realizacji badań na-ukowych. Obecnie sumę dane stają się równie ważne, jnk artykuły naukowe, traktowane w większości przypadków juko interpretacja danych. Projektowanie procesu gromadzenia danych, ich pozyskiwanie oraz interpretacja stanowił) bardzo ważny część procesu przy-gotowania publikacji.
Współczesna nauka bezpośrednio uzależniona jest od procesów tworzenia, rozpowszechniania i analizy danych. 1 kolei te procesy charakteryzują się masowy skal,} pro-dukcji danych i globalnym rozprzestrzenieniem ich zasobów. Uczeni potrzebuj.') pomocy | identyfikacji i selekcji danych, przydatnych w pracach badawczych oraz ich archiwizacji i ochrony (Borgman, Wallis, Enycdy 2007, s. 20].
Ważny tendencję w publikowaniu naukowym jest zacieranie się różnic pomiędzy pry. marnymi zasobami danych, głównie zawierającymi dane nieprzetworzone lub nieprzc-analizowane, a źródłami informacji, umiejscawiającymi dane we właściwym kontekście, takimi jak artykuły, referaty i książki. Zestawy danych są wyszczególniane w spisach publikacji naukowych oraz cytowane wraz z innymi źródłami bibliograficznymi w artykułach naukowych. Publikacje naukowe coraz częściej zawierają dołączone zestawy danych, modele, mchome ilustracje, nagrania dźwiękowe i tym podobne obiekty. Dane są materiałem wyjściowym, powstającym w trakcie badań oraz źródłem do publikacji naukowych, a także do prowadzenia kolejnych badań i kształcenia. Są więc podstawą działalności naukowej.
Przykładami dobrze zarządzanych zasobów danych, mających znaczny wpływ na rozwój badań naukowych, mogą być faktograficzne bazy danych, takie jak GcnBank51 czy Protein Information Resource5*, jak również modyfikowane zasoby powstające we współpracy wielu zainteresowanych stron, takie jak strony Web dotyczące określonych zagadnień czy dziedzin, które łączą dostęp do źródeł prymamych, analiz i komentarzy. Wymienić można także systemy informacji geograficznej (GIS) i geoprzestrzennej, pozwalające na gromadzenie danych, służących przewidywaniu pogody, zmian demograficznych a nawet badaniu starożytnych miast. Bardziej złożonym przykładem są kola-boratoria. łączące wykorzystanie wideokonfcrencji. synchronicznego i asynchronicznego przesyłania komunikatów tekstowych, rozproszonej obsługi instrumentów naukowych, dostępu do „surowych" danych (z czujników urządzeń badawczych, symulacji i archiwów danych), analiz i narzędzi służących wizualizacji, literaturowych baz danych i narzędzi umożliwiających publikowanie. Za pomocą mieszania, miksowania danych, z angielska zwanego iiiaslnip'eiiiSi, analogicznego do miksowania muzyki i tworzenia kolaży, łączy się ze sobą dane z różnych zasobów lub scala różnorodne dane w spójną całość. W ten sposób mogą być także prowadzone analizy, niemożliwe lub bardzo trudne do uzyskania w innych warunkach. Istnieje pewna sprzeczność pomiędzy potrzebami związanymi z wyszukiwaniem (indeksowaniem) danych a ich prezentacją ułatwiającą prowadzenie analiz. W celu wyszukania za pomocą wyszukiwarki dane muszą być zindeksowane, do czego najlepiej nadają się dane tekstowe. Z drugiej strony olbrzymia ilość gromadzonych danych wymaga zastosowania specjalnych technik ich prezentacji, do których zalicza się wspomnianą wizualizację. Wynika z tego, że postać danych najlepiej nadająca się do wy-
M GcnBank jest bazą danych sekwencji DNA (worzoną w NIH (National Institute of Health, USA). Zob. hlip://www, ncbi.nlm.nih.gov/Genbank/.
Protein Information Resource (PIR), zasoby danych o sekwencjach proteinowych i ich funkcjach, prowadzi UniProt. Zob http://pir.georgetown.edu/.
H W informatyce mhup jest to aplikacja Web scalająca dane z różnych źródeł w jedno, zintegrowane źródło. Najczęściej podaje się przykład wykorzystania danych kartograficznych z Google Mapa na stronach opisujących nieruchomości, przestępczość i in. zjawiska występujące na danym terenie.
%
itukiwanii (tekstowa) mniej nadaje nę do Ich analizy i interpretacji (tu przydatna jol postać graficzna) i na odwrót.
Obecnie zagadnienia dotyczące zbiorów danych wiąże *ię z badaniami prowadzonymi w naukach ścisłych, jednak jest bardzo prawdopodobne. Zc wkrótce powstawać będą lak/c duZc zasoby danych, przygotowywane przez specjalistów z /akresu nauk społecznych [Davi$, Vickery 2007, s. 26). Dzięki nowym narzędziom, pozwalającym na badanie, analizę i porównywanie danych w formie cyfrowej, mogą om na przykład uzyskać lepszy obraz tekstów literackich i historycznych.
Dane mogą pochodzić z różnych Źródeł Wymienić można;
• Dane pochodzące z obserwacji, takie jak elementy pogody, związane z określonym miejscem i czasem.
• Dane obliczeniowe, powstające w wyniku wykonania modelowania lub symulacji komputerowej, zarówno dla rzeczywistości fizycznej jak i wirtualnej
• Dane eksperymentalne, powstające podczas badań laboratoryjnych, takich jak wykonywanie reakcji chemicznych czy kontrolowane eksperymenty behawioralne.
• Dokumenty rządowe, biznesowe oraz życia społecznego lakże stanowią źródła pr/ydut-nych danych wykorzystywanych w badaniach nauk ścisłych i społecznych (Borgman 2007, s. 120].
„Czyste" dane. uzyskiwane w trakcie badań naukowych oraz publikacje powstające na ich podstawie, przez długi czas były traktowane oddzielnie, a nawet jako przeciwieństwa. dla których prowadzono odrębne badania. W wyniku tworzenia globalnych zasobów danych sytuacja (a uległa zmianie. Według Henry Rzepy i Petera Murray-Rust, w wielu dyscyplinach dane z badań są niezbędne dla pełnego wykorzystania artykułu naukowego [Rzepa, Murray-Rust 2001, s. 178). W związku z tym dane. związane z artykułem, muszą być reprezentowane w sposób bardziej precyzyjny niż dotychczas, tak aby mogły one być nie tylko rozpoznawane przez ludzi, ale także przetwarzane maszynowo. W ten sposób dane zbliżają się do koncepcji Semantycznego Webu (zob. p 4.9), który zc swej natury zawiera cały proces publikacji. Centralnym pojęciem Semantycznego Webu jest samodi:liniowanie danych, dzięki czemu decyzje dotyczące ich treści i warunków funkcjonowania, w tym możliwych transformacji, mogą być podejmowane nie tylko bezpośrednio przez ludzi, ale także przez agentów (oprogramowanie). Granice tego, co tradycyjnie nazywane jest „artykułem" mogą być rozszerzane w górę i w dól; w dół aż do pojedynczych elementów kodowanych w XML, w górę agregowane do postaci czasopisma, kolekcji czasopism a nawet całego Semantycznego Webu. Nie oznacza to utraty odrębności i identyfikowal-ności, gdyż każda jednostka informacji może być łączona z metadanymi zawierającymi niezbędne dane. Powstaje więc globalna baza wiedzy (biblioteka cyfrowa, docuverse -zob. p. 2.3), składająca się ze ściśle zagregowanych jednostek treści, „artykułów”, pomiędzy którymi zacierają się granice.
Prawdziwa korzyść ze stosowania publikowania elektronicznego może wynikać z zastosowania nowych form publikacji, wykorzystujących specyficzne cechy środowiska cyfrowego [Borgman 2003a, s. 90). Nowe rodzaje publikacji powinny umożliwiać lepsze wyszukiwanie, sortowanie, wyświetlanie informacji, tworzenie relacji (hiperlinki) między obiektami oraz połączeń obiektów z metadanymi.
Publikowanie elektroniczne jest dziedziną, w której, podobnie jak w wielu innych elementach GBC, zachodzą od kilku lat szybkie i poważne zmiany. W ich efekcie w Sieci dochodzi do zanikania tradycyjnych form, takich jak książka, czasopismo, artykuł, raport -na rzecz bardziej ujednoliconej formy, którą można nazwać wypowiedzią na określony temat, o długości i strukturze związanej raczej z tematem i funkcją wypowiedzi. Nie ma potrzeby kontynuowania tradycyjnych form wypowiedzi. Podstawową formą publikacji internetowej staje się raport naukowo-techniczny, zajmując miejsce między krótszym artykułem a bardziej sformalizowaną książką elektroniczną. Forma raportu nie jest tak