do informowaniu agentów Wcbu o łypie zasobu. Stosuje 'IV je w większości schemntń * nieladanych. w tym Dublin Core. ""
MISIE identyfikuje format dwupoziomowo: na wy/szym poziomie podaje typ
.» .• Ł Z — .... Ja. .. XI-. •■■ikeaiiin maeimiiia •/(« ... - ..... imelnmiSnAw a . . . . "I
-—Ł-----~.-w~ ~W — — y— ■ . . . ł . r w - 1 ■* ''lllk ’«
mi niższym jego podtyp. Na wyłszym poziomic zdefiniowano następujące typy nośnikó ’ (w naw iasie liczba podlypów): Application (90). Audio (46). Examplc. Image (12) MCW sag c (IO). Model (3). M ul t i part (13). Test (18), Vidco(21). Na przykład format Bra*fłcz.S TIFF identyfikowany jest jako imagc/lifT Ml ME staje się rozwiązaniem przestarzały^ -- ii «u’C hrnŁI * nieiednomarmr* obr^ćlniiii' rnrmniń... _ . *
TIFF identy fikowany jest jako im;
* ■ * * y v .»----■ . . ■* »---- *----------i-- ■-'o>iuiduiiyn,
coraz częściej odsłaniającym swe finki: niejednoznaczne określanie formatów po wodo ‘ warte n i cod różni a n icm ich odmian, umieszczanie tego samego formatu w kilku miejscach r \’t(> r<mv 7.mSu'iin inko test. iiiL i nnnlirnfinnt l^łnnnlu n....._ .■ • "
XML jest umieszczony zarówno jako test. j.ik i applicntion). Kłopoty te powodują no stawanie nowych propozycji zestawów typów formatów. 11
(XML jest umieszczony zarówno jako test. juk i appliention). Kłopoty te powoduj wstawanie nowych propozycji zestawów typów formatów.
Dla celów tej książki użyteczny jest inny podział formatów, pozwalający na wskazani
i> nadzielić n;iclianniarn'
Dla celów tej książki użyteczny jest inny podział formatów, pozwalający na wskn ich zastosowań w GBC. Można je podzielić następująco:
* Formaty dokumentów tekstowych (DOC. PS. DVI. HTMI----);
* Formaty obiektów multimedialnych:
Formaty grafiki rastrowej (GIF, PNG, JPG. TIFF...) i wektorowej (SVG, CDR
SWF...).
— Formaty dźwiękowe ()VAV, WMA, MP3. MP4. OGG...).
- Formaty obrazów ruchomych (wideo) (MPG. AVI...).
- Formaty hybrydowe: PDF. DjVu.
• Formaty danych (surowe dane z badań naukowych).
* Formaty grafiki ustrukturyzowanej (CAD, VSD, QXD...). - Formaty arkuszy kalkulacyjnych (XLS...).
• Formaty baz danych (DBF. DDF...).
• Formaty kolekcji plików (ZIP, TAR...).
• Formaty konfiguracji i mcladanych (CSS...).
• Formaty wspomagane programowo (TTF, zapisy stanu gry...).
• Formaty plików oprogramowania (Javascript. Java, SWF...) fClausen 2004, s. 4-5], Nazwy konkretnych form ułów (w nawiasach) podane zostały jedynie przykładowo a ich zastosowanie może się nawet zmienić. Jako przykład można podać format PDF, tworzony z myślą o dokumentach tekstowych, dla którego zostały później rozbudowane zastosowania w kierunku multimediów, arkuszy kalkulacyjnych, wypełnianych formularzy. Równie ważną cechą formatów stosowanych w GBC jest możliwość indeksowania treści obiektów w tych formatach przez wyszukiwarki internetowe. Z tego powodu formaty graficzne mniej nadają się do tworzenia obiektów zawierających tekst. Format TIFF, stosowany często w bibliotekach cyfrowych, nadaje się do celów archiwizacji m.in. dzięki możliwości dodawania indeksowanych metadanych". Tu przydatny jest jeszcze jeden podział formatów, ze względu na sposób ich wykorzystania w cyklu życia obiektu cyfrowego. Wówczas mowa jest o: I) formatach pośrednich, służących do przy-gotowania materiału do digitalizacji czy publikacji, obróbki plików i ich porządkowania; 2) formatach archiwalnych, służących do długotrwałego przechowywania; oraz 3) forma-
' MIME — Mullipurpose Internet Mail Exlcnsions.
TIANA - Internet Assigned Name Authoriiy fłiHp:/Avww.iana.org/assignmcnls/mcdia-types/).
' IV formacie TIFF. jak i wspomnianym już JPG możliwe jest automatyczne wstawianie mcladanych. tworzonych przez urządzenia typu aparatów fotograficznych: w tym cci u stosuje się standard przemysłowy Exif [Ploszajski. red. 2008. s. 40].
Umyta I
mcoweto,
_____;jprczcnineją, pr/ęz co czkało dającą zbyt
iomoMiwoici. jak na potrzeby biblioteki cyfrowej, Niemożliwe jcit wląc7anic do nic nlę)n(lanych (oprócz może nazwy pliku). Można stosować /automatyzowane techniki ł>° . wanin pclnotckstowego oraz pobierania takich elementów danych, jak tytuł, autor;
P
ii
'^ylmrzysiiiniem obicklu pm^ityitiówńikakd Wspomniany ju> format ASCII jest prosi;) J
!-l. —--■ -—L..Ł'U:., n ,«|
fj|n Metody wyróżniania tych danych polegają na wykorzystaniu nieformalnych n-sirukluryzowania dokumentów, przez co ich efektywnoić zależy od upor/ądkowinn Tsiruktury. W wielkich zasobach danych cyfrowych nic należy jednak spodziewać się ' ełnej jednolitości ani nawet poprawności dostępnych struktur obiektów cyfrowych. ^Obecnie powszechnie stosowane są bardziej rozbudowane formaty obiektów cyfro* vch, pozwalające na łączenie tekstu i grafiki. Coraz większe zastosowanie znajdują ję* v, 0pjsu strony, takie jak PostScript i PDF, Języki takie pozwalają zapisywać siro* v dokumentów w sposób niezależny od urządzenia wyjściowego (drukarki, monitora) stosowanego do udostępniania dokumentu. Początkowo edytory tekstów oraz programy uraficzne dołączały do tworzonych dokumentów kod określonego urządzenia wyjściowe-t() przez co nie mogły być stosowane z innymi urządzeniami. Zmiana nastąpiła po zastosowaniu języków opisu strony; tu programy generują dokumenty graficzne w formacie sprzętowo niezależnym, który umożliwia drukowanie na każdej drukarce zaopatrzonej w odpowiedni sterownik.
W zastosowaniach biblioteki cyfrowej dokumenty te traktowane mogą być w większości przypadków jak „czarne skrzynki": dokumenty są tworzone w określonym języku, wyświetlane, przekazywane i drukowane bez potrzeby znajomości wewnętrznej struktury. Jednak dla tworzenia spójnych kolekcji tych dokumentów przydatna jest dodatkowa wiedza o ich formatach, gdyż daje to możliwość wykorzystania wybranych cech, takich jak na przykład indeksowanie tekstu, wstawianie zakładek i grafiki.
PostScript, pierwszy komercyjny język opisu strony, powstał w 1985 r. po czym szybko /ostał zaimplementowany przez firmy softwarowc i producentów drukarek jako niezależny od platformy sposób na opis drukowania stron, na których można umieszczać zarówno tekst, jak i grafikę. Pojawiło się oprogramowanie, pozwalające drukować na drukarce dokładnie to, co wyświetlane było na ekranie, w tak zwanym trybie WYSIWYO (Wliat You See ls What You Gct).
PDF jest językiem opisu strony, który wyrósł z PostScript jednak z pominięciem części jego wad. Generuje obraz dokładnie w taki sam sposób, jak poprzednik. Jest to format strony posługujący się zdefiniowanymi obiektami graficznymi, takimi jak linie proste, krzywe, tekst i obiekty graficzne, modyfikowanymi przez różnego rodzaju transformacje. PDF jest niezależny sprzętowo i wyrażany w ASCII. Ponieważ w PDF zawarty może być zarówno tekst, jak i grafika (rastrowa, wektorowa), a także elementy aktywne, format ten (podobnie jak opisany dalej DjVu) nazwać można formatem hybrydowym, posiadającym cechy zarówno formatów tekstowych, jak i graficznych.
Istnieją dwie główne różnice pomiędzy PDF a PS. Po pierwsze PDF nie jest pełnym językiem programowania, gdyż ograniczałoby to jego przenoszalność. Takie cechy jak kompresja czy szyfrowanie są wbudowane w format, nie ma więc potrzeby ich dodatkowego programowania. Po drugie PDF posiada nowe możliwości interaktywnego wyświetlania dokumentów. Struktura dokumentu jest narzucona, a nie wpisywana w zasady strukturyzacji dokumentu, jak w PS. Pozwala to na losowy dostęp do stron, hierarchiczną strukturę zawartości i nawigację w obrębie dokumentu. Możliwe jest tworzenie hiperlin-ków. Pliki PDF są zazwyczaj tworzone automatycznie przez odpowiednie aplikacje (np. edytory tekstów), a nie pisane ręcznie, jak się to zdarza w środowiskach specjalistów z zakresu nauk technicznych i ścisłych, chętnie stosujących PS.
Wiele cech formatu PDF dotyczy jego interaktywności. Możliwe jest dodawanie ad-
69