Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
PDF czy DjVu, w którą stronę?
Wprowadzenie
Skanowane publikacje elektroniczne
Publikacje wygenerowane elektronicznie, zawierające bardzo dużą liczbę szczegółów
Dokumenty tekstowe wydane w formacie co najwyżej A4
Problemy bezpiecznego udostępniania publikacji elektronicznych
Problemy występujące sporadycznie
Publikacje DjVu wykonane na bazie publikacji pdf (IPN Warszawa, PWT Wrocław)
1. Wprowadzenie.
Publikacje elektroniczne w odróżnieniu od wydawnictw papierowych, dzięki zdecydowanie niższym kosztom
wydania, umożliwiają coraz większej liczbie przedsiębiorstw, oficyn wydawniczych lub bibliotek publikowanie własnych
prac, bieżące archiwizowanie dokumentacji itp. Dla bibliotek czy też archiwów dokumentowych pojawiła się możliwość
wyeksponowania własnych zbiorów, efektywnego udostępniania dokumentów za pośrednictwem sieci lokalnych lub
rozległych, a digitalizacja oraz nowe technologie teleinformatyczne stały się podstawą do tworzenia interaktywnych oraz
multimedialnych publikacji, dzięki którym czytelnicy czy tez osoby, do których są kierowane, otrzymali zupełnie nową
jakość w korzystaniu z opublikowanych zbiorów, zwłaszcza tych starszych, jak rękopisy czy stare druki, do których dostęp
bardzo często był utrudniony ze względów bezpieczeństwa.
Pojawia się zatem pytanie, w jaki sposób czy też właściwie w jakim formacie publikować dokumenty ?
Bez względu na to, czy digitalizowane dokumenty zawierają wyłącznie tekst, grafikę, tabele czy
też kolorowe zdjęcia, ich zawartość nie powinna w priorytetowy sposób stanowić o tym, w jakiej
postaci zostaną udostępnione. Należy również zwrócić uwagę na to, że formaty dokumentów,
które umożliwiają wiarygodny wydruk o satysfakcjonującej jakości w postaci papierowej,
niekoniecznie muszą posiadać określone walory sprzyjające temu, by mogły posłużyć także do
efektywnego publikowania elektronicznych dokumentów za pośrednictwem - dla przykładu -
internetu. W tym momencie trudno nie zgodzić się z opinią, że do jednych z najlepszych formatów
plików służących wydaniu dokumentów w postaci papierowej należy format Adobe Illustratora
oraz format sędziwego Adobe Acrobata, czyli pdf. Jednak bez względu na potrzebę lub atrakcyjność dokumentu
papierowego, nie można pominąć wagi jaką już zdobył dokument elektroniczny. A na tym polu w/w formaty coraz częściej
nie spełniają wielu oczekiwań zarówno ze strony publikującej dokumenty elektroniczne jak i ze strony zapoznającej się z
ich zawartością.
Ponad sześć lat temu - dzięki matematykom koncernu AT&T - pojawił się nowy format plików -
DjVu. Jest zatem od formatu pdf około 10 lat "młodszy". Format DjVu powstał tak naprawdę jako
odpowiedz na narastającą ilość życzeń i krytycznych uwag w stosunku do możliwości, które
oferuje format pdf. Zamysł twórców nowego formatu odzwierciedlony został nawet w jego
nazwie. Ponownie - niczym deja vu - zaprezentowano na rynku format do ... przechowywania,
drukowania i publikowania dokumentów. Pojawienie się formatu DjVu nie oznacza absolutnie
tego, że z dnia na dzień wszystkie publikacje elektroniczne prezentowane będą w nowym
formacie. Oznacza jedynie, że obecnie można dokonać świadomego wyboru dla formatu
publikowanych dokumentów tak, by jakość i sposób opublikowanych zbiorów zachęcały
czytelników do zapoznania się z ich treścią.
Podobnie jak naturalnym jest to, że wady czy też braki w oferowanym narzędziu informatycznym (lub formacie) są
przyczyną powstania kolejnego narzędzia (lub formatu) pozbawionego wad, a zatem lepszego, to równie trudno jest
przypuszczać, że oferowany od ponad sześciu lat format dokumentów DjVu jest jedynie porównywalny lub niewiele
atrakcyjniejszy od formatu pdf. Gdyby tak było, ciężkie prawa rynku po dwóch-trzech latach obecności zapewne
wykluczyłyby go z "gry". Ponieważ popularność formatu DjVu stale wzrasta, można pokusić się o wskazanie tych cech,
które świadczą o jego sile.
Dokumenty w formacie DjVu są niemodyfikowalne, a co za tym idzie wiarygodne względem oryginału, z którego
powstały.
Format DjVu jest formatem otwartym, a nieodpłatne dla wszelkich zastosowań przeglądarki dokumentów DjVu
dostępne są niemal dla każdego systemu operacyjnego.
Rozmiary dokumentów DjVu są nieprawdopodobnie małe i to nie za sprawą usilnie podnoszonego stopnia kompresji
(jak w przypadku plików jpg), co obniżyłoby jakość dokumentu elektronicznego.
Format DjVu jest jedynym formatem dla dokumentów wielostronicowych, w którym czas konieczny do zapoznania
się z zawartością strony - dla przykładu - nr 3, jest taki sam jak czas potrzebny do zapoznania się ze stroną np. nr
1500. W odróżnieniu od starszych formatów dokumentów, dla DjVu nie jest wymaganym, by najpierw należało
pobrać cały dokument, by móc zapoznać się jedynie z treścią dwóch-trzech określonych stron. Przeglądarki DjVu
potrafią pobrać jedynie wskazaną stronę dokumentu pomijając strony ją poprzedzające.
Nawigacja po dokumentach DjVu (zwłaszcza skanowane mapy, duże plakaty, rysunki techniczne) jest
błyskawiczna. Nie występuje znane z innych formatów zjawisko ciągłego "przerysowywania" kolejno
1 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
eksponowanych fragmentów wyświetlanego dokumentu. Nawigacja przypomina raczej kolejne naciśnięcia klawisza
PageDown podczas przeglądania typowego dokumentu MS Word.
Dokumenty DjVu posiadają wysoką jakość. Dotyczy to zarówno ich przeglądania jak i ich wydruku. Najczęściej
dokumenty DjVu publikowane są w rozdzielczościach 300, 400, 450 i 600 dpi.
Zawartość kolejnych stron dokumentów DjVu przechowywana może być w postaci odrębnych warstw (warstwa
treści oraz warstwa tła). Dzięki możliwości ukrycia warstwy tła strony, komfort zapoznawania się - zwłaszcza - z
pożółkłymi lub podniszczonymi stronami dokumentów jest bardzo wysoki.
Dokumenty DjVu mogą posiadać warstwę tekstową, co umożliwia ich pełnokontekstowe przeszukiwanie i to nie
tylko w obrębie wyświetlanego przez przeglądarkę dokumentu.
Dla dokumentu w formacie DjVu nigdy nie pojawi się problem z prawidłowym wyświetleniem dokumentu, w którym
użyto mniej popularnych czcionek (typu Math, Greek, czcionki ozdobne), a których to może nie posiadać
zainstalowanych czytelnik publikacji.
Wiele innych cech formatu DjVu takich jak znak wodny w dokumencie, ochrona hasłami, panele graficznych
miniatur stron lub rozwijalnych spisów treści, zintegrowane w dokumencie metadane o publikacji lub hiperłącza,
mogą być dodatkowym argumentem przekonującym do publikowania dokumentów elektronicznych w formacie
DjVu.
Jednak właściwości czy też walory formatu plików to tylko jedna kwestia. Czymś zupełnie odmiennym są popularność
pewnego formatu lub też indywidualne przyzwyczajenia użytkowników komputerów. Format pdf jest znany równie dawno,
jak dawno komputery używane są w biurach i przedsiębiorstwach. To oczywiście główna siła czy też podstawa ogromnej
popularności tego formatu. Przygotowywanie typowych, małoformatowych dokumentów tekstowych ze sporadycznie
zamieszczanymi elementami graficznymi, w formacie pdf wielu użytkowników nie sprawia żadnego kłopotu, a powstałe
pliki prezentują się estetycznie. Pojawienie się zatem na rynku formatu DjVu wywołało nie tylko wiele dyskusji i polemik
wokół alternatywnego produktu, ale spowodowało pojawienie się przeróżnych testów porównujących walory obu formatów
i udowadaniających wyższość pierwszego formatu nad drugim lub na odwrót.
Ponieważ pliki DjVu oraz pdf powstają w przeróżny sposób (z zeskanowanych postaci dokumentu papierowego, z plików
pakietów biurowych, z plików programów CADowskich, z map bitowych, itd., itp...), praktycznie nie jest możliwym wydać
jednej jedynej oceny, który z tych formatów dokumentów jest rewelacyjny, a który - nie.
Możliwym jest natomiast wskazać kilka sytuacji, w których formaty te zachowują się odmiennie. Jeżeli akurat jedna z
takich, przytoczonych poniżej sytuacji dotyczy dokumentów, które należy opublikować, można rozważyć, który format
należy wybrać, by wygląd i funkcjonalność utworzonego dokumentu elektronicznego najbardziej odpowiadał
oczekiwaniom.
Poniżej, przygotowano w formie publikacji prezentujących dokumenty elektroniczne, które powstały drogą skanowania
oraz dokumenty wygenerowane elektronicznie a zapisane w formatach pdf oraz DjVu. Jako przykłady posłużyły publikacje
jednej z polskich bibliotek cyfrowych, publikującej zasoby swoich zbiorów z dużą starannością (zarówno w formacie DjVu
jak i w formacie pdf) oraz przykłady znalezione na stronach University of Wisconsin i Pennsylvania Department of
Transportation. Dodatkowo dołączono opublikowane w internecie testy magazynu Marynarki Stanów Zjednoczonych oraz
artykuł witryny www.planetdjvu.com ustosunkowujący się do publikacji z witryny www.planetpdf.com.
Aby zapoznać się z poniższymi prezentacjami konieczne jest zainstalowanie przeglądarek formatów DjVu oraz pdf.
Dostępne są poniżej.
Przeglądarka Wersja Język Rozmiar pliku
6.1.1 Polski 6.4 MB
6.1.1 English 6.3 MB
8.1.2 Polski 23.6 MB
9.0.0 English 33.5 MB
2. Skanowane publikacje elektroniczne.
Najczęściej wskazywaną słabością formatu pdf jest prezentowanie za jego pośrednictwem skanowanych postaci
elektronicznych dokumentów papierowych. Uwaga ta dotyczy przede wszystkim dokumentów wielostronicowych (powyżej
30 stron typowego formatu) lub dokumentów zawierających strony w formacie powyżej A3. Tak naprawdę, aby nie
zapychać nawet wydajnych łączy internetowych dużą ilością przesyłanych megabajtów informacji, publikacje takie często
przygotowywane są w postaci mozaiki lub tabelki umożliwiającej pobrać tylko jedną stronę dokumentu.
W taki sposób przygotowano na uniwersytecie Wisconsin publikację unikatowej mapy III Rzeszy w formacie pdf. Publikację
tą rozszerzono o odpowiadającą jej postać DjVu i przedstawiono celem porównania : Prezentacja 01 .
Zwyczajowo, dokumenty DjVu prezentowane są w rozdzielczości 300 dpi dla warstwy treści oraz 100 dpi dla warstwy tła.
W powyższej prezentacji, pomimo, iż zarówno warstwę treści jak i warstwę tła wykonano w rozdzielczościach 300 dpi, a
wpływa to m.in. na zwiększenie się jej wielkości, łączny rozmiar wszystkich map w formacie DjVu wynosi 38,6 MB (średni
rozmiar jednej mapy spośród 39 to 0,99 MB). Mapy wykonano dlatego w taki sposób, aby były porównywalne z ich
odpowiednikami w formacie pdf, które powstały z plików tiff również o rozdzielczości 300 dpi. Kolekcja map zapisana w
formacie pdf zajmuje 83,7 MB (średni rozmiar jednej mapy to 2,15 MB). Subiektywna ocena jakości dokumentów
elektronicznych zarówno w formacie DjVu jak i pdf, należy oczywiście do czytelnika. Natomiast, zwraca uwagę fakt, że ta
sama informacja (komplet map) zapisana w formacie pdf wymaga od czytelnika, by poświęcił dodatkowy czas na pobranie
plików większych o ponad 45 MB, lub też można powiedzieć, że dzięki publikacji tej samej informacji, ale wykonanej w
formacie DjVu, jej rozmiar został zmniejszony o 54%, a czas pobrania publikacji celem zapoznania się z jej zawartością
skrócony został ponad dwa razy.
2 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
Polecamy kilka innych typowo bibliotecznych skanowanych publikacji dostępnych pod adresem :
http://www.djvu.com.pl/zastosowania_djvu_10.php
3. Publikacje wygenerowane elektronicznie, zawierające bardzo dużą liczbę szczegółów i posiadające duże
rozmiary.
Takie publikacje spotykane są najczęściej w biurach projektów, zasobach zakładów przemysłowych,
przedsiębiorstwach kartograficznych. Jednak nie należy wykluczyć ich coraz częstszego pojawiania się w cyfrowych
bibliotekach uczelni technicznych. W dokumentach tych istotna jest nie tylko wysoka jakość oraz błyskawiczna nawigacja
po dokumencie, ale również rozmiar samego dokumentu. Wypada zauważyć, że 2000 lub 3000 rysunków wcale nie
oznacza dla wielu zakładów dużej dokumentacji czy też projektu. Przy takiej zatem liczbie publikowanych czy też
udostępnionych za pośrednictwem serwera dokumentów, każde 10 MB zaoszczędzonej pojemności zaczyna mieć istotne
znaczenie. Aby zaprezentować możliwości jakie oferuje w takiej sytuacji technologia DjVu, przygotowano prezentację
opartą o publikację Departamentu Transportu Stanu Pensylwania w USA. Publikacja pierwotnie przygotowana została w
formacie pdf. Podobnie jak w poprzedniej prezentacji, można zapoznać się zarówno z jej postacią w formacie DjVu jak i w
formacie pdf.
Wydawać by się mogło, że wektorowy zapis gwarantuje nie tylko bardzo wysoką jakość dokumentu pdf ale również bardzo
niewielki rozmiar pliku. Co do jakości plików pdf, oczywiście absolutnie zastrzeżeń wielkich mieć nie można, natomiast jak
pokazuje Prezentacja 02, rozmiar takich dokumentów zapisanych w formacie pdf jest czterokrotnie większy od
odpowiadającej jej postaci DjVu. W powyższej prezentacji dokumenty w formacie DjVu przygotowano z rozdzielczością
600 dpi. Ich jakość nawet w powiększeniu 1000% może być bardzo miłym zaskoczeniem, a odnosząc się analogicznie jak
w pierwszej prezentacji do różnicy pojemności plików pdf i DjVu, w tym przypadku, zastosowanie technologii DjVu daje
zmniejszenie rozmiaru publikacji o 74%.
Dodatkowego wyjaśnienia wymaga jeszcze zaprezentowana opinia w stosunku do jakości plików pdf : zastrzeżeń
wielkich mieć nie można . Zapis wektorowy jest nie tylko ogromną zaletą formatu pdf, ale niekiedy prowadzi do tak
dalece zafałszowanego przedstawienia publikacji, że praktycznie może to wykluczyć ten format dla takich zastosowań. W
powyższej prezentacji zwrócono już uwagę, że linie południków i równoleżników do pewnego powiększenia dokumentu pdf
są tak grube i wyrazne, że zdawać by się mogło iż stanowią - nie zespół linii pomocniczych - lecz najważniejszą część
dokumentu. Podobnie zresztą jak drogi boczne, które im większe pomniejszenie mapy, tym bardziej przypominają
autostrady. Oczywiście, powyżej powiększenia rzędu 150%, zapoznawanie się z dokumentem pdf jest już wygodne i nie
stwarza problemów. Ale ta słabość formatu pdf w prezentacji 02 została jedynie zasygnalizowana.
Poniżej przedstawiono wygląd dokumentu zapisanego w formacie DjVu oraz w formacie pdf jako zrzut ekranu czy też
screenshot .
Rezygnacja z udostępnienia tego dokumentu w formacie pdf wynika stąd, że zajmuje on 32.646 kB a nawigacja po
dokumencie jest tak powolna, że zniechęca nawet bardzo cierpliwych. Tak naprawdę postać taka nadaje się tylko do
jednego do ładnego wydruku dokumentu w postaci papierowej. Z cyfrową postacią DjVu wspomnianego tu dokumentu o
pojemności 1.791 kB, a zatem mniejszą od odpowiednika w formacie pdf o 95%, można zapoznać się : rysunek 01.
Postać dokumentu w przeglądarce Acrobat Reader 7.0.5 PL
Postać dokumentu w przeglądarce DjVu Browser 6.1.0 PL
3 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
W obu przypadkach przeglądarki przedstawiają identyczny dokument, z tym, że jego wyglądy dalekie są wzajemnie
od identyczności. Nasuwa się zatem pytanie : Jak naprawdę wygląda opublikowany dokument?
Dokument wygląda tak, jak przedstawia go przeglądarka DjVu.
W sytuacjach kiedy w dokumencie występuje dużo linii położonych blisko siebie (na przykład obszar zakreślony linią
pochyłą), przeglądarka dokumentów pdf wykreśli każdą z linii osobno i w rezultacie można obejrzeć jedynie jednobarwną
plamę. Oczywiście sukcesywnie powiększając wyświetlany fragment, obraz w pewnym momencie stanie się czytelnym, czy
też przestanie być nieczytelnym. Natomiast dlaczego plamą jest również szary rastrowy podkład w przeglądarce pdf
trudno nam uzasadnić.
Praktycznie powyższy przykład jest jednym z najbardziej przemawiających za tym, że format pdf jest optymalnym do
przenoszenia jego zawartości na postać papierową a nie do przygotowywania publikacji elektronicznych, z którymi
czytelnik przede wszystkim zapoznaje się po wyświetleniu ich na monitorze. Prezentacja 02 pozwala również nabrać
przekonania, że publikując w formacie pdf zasoby, które nie są typowymi dokumentami tekstowymi, zawierają elementy
grafiki opisanej wektorowo oraz posiadającymi rozmiar większy od A4 (co powoduje, że przeglądarki wyświetlają go w
całości z dużym pomniejszeniem), bardzo łatwo jest wprowadzić w błąd czytelnika a tym samym zniechęcić go do
zapoznawania się z innymi opublikowanymi zasobami.
4. Dokumenty tekstowe wydane w formacie co najwyżej A4.
Sukcesywne obniżanie cen sprzętu komputerowego oraz oprogramowania pozwala coraz niższym kosztem
przygotowywać publikacje, które od początku swego powstawania przeznaczone są do udostępniania w postaci
elektronicznej. Takiemu stanowi rzeczy sprzyja również polskie ustawodawstwo, nakazujące m.in. dołączać do każdego
produktu na polskim rynku polskojęzyczną instrukcję obsługi. Koncerny takie jak SAMSUNG czy LG ELECTRONICS
szanując różne przyzwyczajenia swoich klientów, publikują instrukcje zarówno w formacie DjVu jak i w pdf.
Czy tak proste z punktu widzenia ich budowy (tekst, przeciętny rozmiar, niewielka ilość obiektów graficznych, zaledwie
kilka typowych czcionek pisarskich) dokumenty DjVu i pdf mogą posiadać znaczące różnice w funkcjonalności,
przydatności ...? Nie, takich różnic wskazać nie można, a przynajmniej nie takich, które przesądziłyby o całkowitej
nieprzydatności jednego z tych formatów. Czasem jednak dziwią różnice wielkości na pozór tych samych ze względu na
zawartość - dokumentów pdf. Dolnośląska Biblioteka Cyfrowa opublikowała książkę Język C++ programowanie
obiektowe (publikacja dostępna jest : http://www.dbc.wroc.pl/dlibra/publication/954). Publikacja jest dopracowana,
funkcjonalna o wysokiej jakości i zadowalającej szybkości nawigacji. Cóż więcej ? Uwagę zwraca jedynie jej rozmiar. 130
stron tej publikacji zajmuje 9.866 kB. Ta sama Biblioteka, niemal jednocześnie opublikowała podobną książkę Język
C++ w środowisku Borland C++ (publikacja dostępna jest : http://www.dbc.wroc.pl/dlibra/publication/952),
składającą się ze 195 stron (tzn. dokładnie 50% stron więcej). Podobnie jak w poprzedniej publikacji szata graficzna,
jakość i szybkość nawigacji są bez zastrzeżeń. Ale rozmiar publikacji 50% obszerniejszej wynosi 1.926 kB. Można było
oczekiwać porównując ilość podobnych zawartością stron - objętości rzędu 50% większej. Okazuje się, że druga
publikacja jest mniejsza i to o ponad 80% od mniejszej ilością stron publikacji. Na pytanie, dlaczego pojawiają się aż
takie rozbieżności przy tak znikomej odmienności zaprezentowanej treści, a właściwie jak przewidzieć, jaką wielkość
posiadać będzie dopiero co tworzona przez nas publikacja, zapewne odpowiedzieć potrafią jedynie informatycy a nie zwykli
użytkownicy oprogramowania.
Pozostawiając problem nieprzewidywalnego rozmiaru przeciętnej strony w dokumentach pdf, powrócić można do tego, co
dla takiego typu publikacji z kolei, oferuje technologia DjVu. Przytoczone powyżej książki dla zaprezentowania w
formacie DjVu - wykonano z rozdzielczością 600 dpi. Publikacja 130 stronicowa zajmuje w formacie DjVu 888 kB i
to różnica jest znacząca, bo publikacja jest mniejsza aż o 91%. Z kolei publikacja 195 stronicowa zajmuje 1.752
kB co daje nazwijmy to oszczędność symboliczną bo zaledwie 9%.
Tak bardzo odmienne wyniki porównywanych - a różniących się niewiele rodzajem zawartej w nich informacji
dokumentów, prowadzi do wniosku, że skoro dokumenty DjVu w stosunku do odpowiadających im dokumentów w formacie
pdf, mogą w pewnym przypadku być od nich mniejsze o 9%, w innym zaś mogą być mniejsze o 91%, to pewnie mogą też
być od nich większe. To prawda. Nie jest tak, że zawsze dokument DjVu musi być najmniejszy, ale taki wniosek w
przypadku technologii DjVu - to jeszcze nie wszystko, jeżeli chodzi o walory jakie ona oferuje.
Bez względu na to, jak dalece zoptymalizowany zostanie zapis publikacji w formacie pdf, to aby zapoznać się z zawartością
4 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
choćby jednej jego strony, i tak konieczne jest pobranie całej publikacji lub przynajmniej takiej jej części, która zawiera
stronę z zawartością, której czytelnik zamierza się zapoznać. Operacja ta jest tym bardziej czasochłonną, im więcej stron
musi pobrać przeglądarka. W przypadku technologii DjVu, która póty co jako jedyna na świecie oferuje rozdzielony
zapis dokumentów wielostronicowych, użytkownik oczekuje jedynie na załadowanie się wybranej strony (wskazanej np. za
pośrednictwem załączonego spisu treści lub panelu miniatur graficznych).
Dla obu publikacji nt. języka C++ przeciętny rozmiar strony książki zapisanej w formacie DjVu to 69 kB. I tylko tyle
informacji przesyła czytelnikowi serwer, gdy otrzyma polecenie wyświetlenia określonej strony. Również podobna ilość
informacji potrzebna jest do pobrania, by na monitorze wyświetliła się pierwsza strona publikacji w formacie DjVu. W
sytuacji, kiedy dzięki technologii DjVu, z zawartością dokumentu zapoznawać można się po pobraniu ok. 10 kB,
poszukiwanie drogi optymalizującej zapis dokumentu w formacie pdf z rozmiaru przykładowo 10 MB do 2 MB, wydaje się
być pomysłem mało atrakcyjnym. Wartości przytoczone powyżej np. 10 kB, dotyczą dokumentów, o których mowa w
punkcie 4. Nie należy ich uogólniać np. w stosunku do skanowanych map, a przedstawionych w punkcie 2.
5. Problemy bezpiecznego udostępniania publikacji elektronicznych
Dla elektronicznych dokumentów DjVu brak jest jakichkolwiek niepokojących informacji o możliwości naruszenia
bezpieczeństwa komputera osoby zapoznającej się z publikacją w tym formacie. To bardzo istotny czynnik wpływający na
to, z którymi publikacjami czytelnik zapozna się bez wahania, a co do zawartości których będzie posiadać mniej lub
bardziej uzasadnione obawy.
W przypadku formatu pdf, zdarzają się sytuacje, w których bezpieczeństwo zapoznawania się z publikacją w tym formacie
jest kwestionowane. Aby przybliżyć problem, poniżej załączono za Computerworld artykuł Dziury w pdf , a publikowany
również na internetowej stronie Gazety wyborczej .
Dziury w PDF
Paweł Krawczyk 2006-09-18
David Kierznowski odkrył w programach Adobe dziury pozwalające na zdalne wykonywanie kodu przy pomocy odpowiednio
skonstruowanych plików PDF. Pliki PDF - pomimo kilku wcześniejszych dziur - uchodziły do tej pory za raczej bezpieczne z
punktu widzenia ochrony przed wirusami i końmi trojańskimi. Odkryte przez Kierznowskiego dziury wykorzystują różne
formy linków zewnętrznych wbudowanych w format PDF. Według odkrywcy problem dotyczy zarówno Adobe Readera jak i
Adobe Professional.
Pierwsza dziura wykorzystuje wbudowane w PDF linki do zewnętrznych dokumentów, dla których Acrobat bez ostrzeżenia
uruchamia zewnętrzną przeglądarkę, co według Kierznowskiego może służyć do wykonania dowolnego złośliwego kodu.
Druga dziura wykorzystuje interfejs bazodanowy (ADBC) w PDF i pozwala na wykonywanie niektórych funkcji ODBC w
lokalnym systemie. W zademonstrowanych przez autora kodzie proof-of-concept pokazano na przykład enumerację
lokalnych baz danych (jeśli takie istnieją) i przesłanie wyników na zewnątrz przy pomocy programu netcat.
Kierznowski twierdzi, że poza tymi dwoma dziurami opisanymi szczegółowo na jego blogu istnieje jeszcze przynajmniej
siedem podobnych podatności.
Odpowiedz Adobe Adobe opublikowało w ostatnich dniach jedno ostrzeżenie na temat potencjalnych dziur w swoich
programach w dokumencie 321644, jednak dotyczy on przepełnienia bufora a nie opisanych wyżej błędów. Należy
oczekiwać, że na odpowiedz i poprawki Adobe do opisanych przez Kierznowskiego błędów przyjdzie jeszcze poczekać.
Do tego czasu należy być ostrożnym w otwieraniu pobieranych z sieci plików PDF. Kierznowski na swojej stronie
opublikował dwa przykładowe pliki PDF, które demonstrują jakie mogą być konsekwencje: pierwszy przenosi od razu po
załadowaniu na zewnętrzną stronę WWW, drugi pod Windows powinien uruchomić enumerację ODBC i przesłać wyniki na
port 80 na localhost.
yródło : http://www.computerworld.pl/news/99548.html
lub http://gospodarka.gazeta.pl/gospodarka/1,33181,3626426.html
Przeczytaj również : http://michaeldaw.org/md-hacks/backdooring-pdf-files/ (artykuł w języku ang.)
6. Problemy występujące sporadycznie.
Rzadko które przedsiębiorstwo, oficyna wydawnicza czy też biblioteka ponosząc znaczący nakład pracy przy tworzeniu
publikacji elektronicznych, stosuje wyłącznie czcionki dołączane do systemu operacyjnego (Arial lub Times New Roman
G.). Odmienna czcionka w świecie internetu - jest przecież wyróżnikiem wśród innych wydawnictw elektronicznych.
Może nie tak znaczącym jak np. logo przedsiębiorstwa, ale na pewno pozwalającym wskazać - często korzystającym z
zasobów elektronicznych czytelnikom - zródło pochodzenia publikacji. Gdy publikację taką przygotowano w formacie DjVu,
to po prostu można ją udostępnić lub korzystać z niej bez obaw. W formacie pdf sytuacja taka ma miejsce tylko w
przeważającej liczbie przypadków. Jest to przypadłość formatu pdf, która doskwiera użytkownikom komputerów już od
wielu lat.
W odróżnieniu od formatu DjVu, w którym każda strona dokumentu jest tworem autonomicznym i której poprawność
wyświetlenia nie zależy od jakiegokolwiek innego fragmentu pliku, z którego pochodzi, poprawność wyświetlania
poszczególnych stron publikacji zapisanej w formacie pdf jest ściśle uzależniona od tego, czy przeglądarka plików pdf
posiada dostęp do wszystkich czcionek i ich odmian, z których utworzono kolejne strony publikacji. Ta konieczność,
związana z budową plików w formacie pdf powoduje, że osobie przygotowującej dokument zdarza się przeoczyć wydanie
polecenia osadzenia w tworzonej publikacji jednej lub paru dodatkowych czcionek, które to pojawiły się na jednej lub kilku
stronach publikacji.
Publikacja, na stanowisku, na którym powstaje jest oczywiście wyświetlana prawidłowo, ponieważ redagujący ją
użytkownik komplet czcionek posiada zainstalowany w systemie operacyjnym. Oczywiście, sytuacja taka sprzyja
powstaniu błędu, gdyż nie sposób podczas przeglądu kolejnych stron, natknąć się na brak jakiejkolwiek czcionki. Gdy
jednak publikacja trafi na stronę internetową, przeglądarka plików pdf czytelnika napotykając na problem z czcionkami
albo odmówi wyświetlenia takiego dokumentu, albo zawiesi swoje działanie, albo też w najlepszym przypadku w miejscu
gdzie powinny pojawić się litery i znaki nie dołączonej czcionki, wyświetli losowe znaczki graficzne po uprzednim
poinformowaniu w okienku, który problem z czcionką wystąpił. Sytuację taką można zobrazować publikacją wspomnianej
już biblioteki, a zajmującej 2.168 kB i dostępnej pod adresem http://www.dbc.wroc.pl/dlibra
/docmetadata?from=directory&id=442. Acrobat Reader w wersjach powyżej 6 wyświetla przytoczoną publikację
prawidłowo do strony 31. Następnie pojawia się komunikat jak w załączonym okienku (z lewej), przeglądarka wyświetla
5 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
stronę 32, ale tablica 1.5.2 zamieszczona na tej stronie zawiera przypadkowe bzdury . Przeglądarka nie kończy działania
i pozwala na dalsze zapoznawanie się z treścią dokumentu. Oczywiście, publikację w formacie pdf z drobnymi
uszkodzeniami można skonwertować do formatu DjVu. Należy przy tym pamiętać, że konwersja to nie usuwanie usterek.
Konwersja przy rozdzielczości 600 dpi prowadzi do otrzymania pliku DjVu o pojemności 1.038 kB, którego wszystkie
strony są prawidłowe, a w przeglądarce DjVu wyświetlone będą bez żadnego komunikatu. Strony, w których nie załączono
koniecznych czcionek będą wyświetlone identycznie jak odpowiadające im strony w przeglądarce pdf po uprzednim
wyświetleniu komunikatu Acrobata.
Bazując - choćby - na przytoczonych w niniejszym artykule przykładach, absolutnie nie można sądzić, że format pdf jest
aż tak zły. Z całą pewnością można stwierdzić jedynie, że do publikowania skanowanych postaci dokumentów
papierowych, format pdf, którego pliki posiadają bardzo duży rozmiar, nie umożliwiają rozdzielonego zapisu dokumentu,
nie nadaje się na pewno, co jednak nie oznacza, że publikowanie takie nie jest możliwe. Natomiast należy zauważyć
również, że dominującymi publikacjami elektronicznymi w formacie pdf, są zazwyczaj dokumenty stricte tekstowe. W
takich publikacjach próżno szukać dużej ilości blisko położonych linii, które przeglądarka wyświetli jako barwną plamę.
Trudno też doszukać się w takich publikacjach stron w formacie większym niż A3 i zawierających jednocześnie setki
obiektów oraz linii, do których kolejnego przerysowania przeglądarka potrzebuje znaczącej ilości czasu. Również w takich
dokumentach nie wystąpią wielopiętrowe ułamki ilustrujące przeróżne zależności fizyko-chemiczne czy też matematyczne.
Podobnie z używaniem w takich dokumentach cyrylicy, alfabetu greckiego czy symboli naukowych. A tylko takie kwestie
poruszono w niniejszym artykule. To zaś, że czasem rozmiar wygenerowanego elektronicznie dokumentu pdf przejdzie
najśmielsze oczekiwania, też nie jest katastrofą. Skoro czytelnikowi na publikacji zależy, to może na nią poczekać. Gdy
zaś publikacja zawiera nie więcej niż 10 stron, również i taka przypadłość nie będzie zauważona.
Niezauważona przez czytelnika, ale zauważona podobnie jak inne cechy formatu pdf przez matematyków koncernu
AT&T, którzy podjęli wysiłek i opracowali komplet algorytmów, dających podwalinę do powstania nowego formatu
przechowywania i publikowania dokumentów. Formatu eliminującego znane na dziś niedociągnięcia bardzo popularnego
pedeefa. To, że dzięki firmie Lizardtech Inc. nowy format został zaoferowany szerokiej rzeszy użytkowników komputerów
w postaci formatu otwartego, na pewno wzbudza zaufanie do tego formatu, gdyż nie sposób już zmonopolizować lub
uzależnić w jakikolwiek sposób jego stosowanie.
Cóż, Adobe zachęca do formatu pdf, LizardTech do formatu DjVu. Dla użytkownika najkorzystniejszym jest zaś to, że
decyzję o tym, w którym z przedstawionych formatów, publikacje (które zamierza udostępnić lub przygotować),
zaprezentują się najkorzystniej, może podjąć samodzielnie. Chyba, że ideą opublikowania zasobów jest jednorodna
kolekcja publikacji. W takim przypadku wybrany może już być tylko jeden format.
7. Publikacje DjVu wykonane na bazie publikacji pdf.
Poniżej przedstawiono dwie przykładowe prezentacje pozwalające ocenić zalety publikowania dokumentów elektronicznych
w formatach DjVu oraz pdf. Pierwsza z nich powstała dla Instytutu Pamięci Narodowej w Warszawie w przeważającej
części na bazie internetowych publikacji Instytutu, a dostępnych pod adresem :
Poza ciekawą zawartością zaprezentowanych przykładów, podano również wielkości poszczególnych publikacji zapisanych
zarówno w formacie pdf jak i w DjVu. Zaprezentowane przez Instytut Pamięci Narodowej publikacje w formacie pdf
powstały zarówno z zeskanowanych stron dokumentów papierowych (z bardzo zróżnicowaną kompreją obrazów) jak też
zostały wygenerowane elektronicznie. Dzięki dużej różnorodności pod względem jakości, wielkości jak i sposobu powstania
kolekcji plików w formacie pdf, a następnie skonwertowaniu ich do formatu DjVu, prezentacja ta umożliwia udzielenie
odpowiedzi na pytanie
"jakiej jakości i wielkości publikacji w formacie DjVu należy oczekiwać w sytuacji, gdy powstaje ona z plików w formacie
pdf".
Oczywiście chodzi o ocenę relatywną, a zatem typu "z pliku pdf wynerowanego elektronicznie oczekiwać można ..., zaś z
pliku pdf, w którym zastosowano silną kompresję map bitowych oczekiwać można ...". Zapraszamy ...
6 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
Kolejną prezentację wykonano dla Biblioteki Cyfrowej FIDES przy Papieskim Wydziale Teologicznym we Wrocławiu.
W tym wypadku bezpośrednia konwersja
kolekcji plików pdf nie była możliwa.
Pierwotnie publikacja powstawała w przeciągu
kilku lat za pomocą różnych narzędzi i różnych
ich wersji. Publikacja ta (zapisana w 40
folderach i podfolderach) składa się z ponad
300 plików pdf zawierających łącznie ponad
14.000 stron. Podstawą efektywnej nawigacji
po jej zawartości są rozwijalne spisy treści,
które łącznie zawierają ponad 2.500 wierszy.
Ponadto, nawigację wspiera około 800
hiperłączy umieszczonych w różnych miejscach
wspomnianych ponad 14.000 stron. Problem w
konwersji tej publikacji do formatu DjVu
polegał na tym, że niektóre wiersze spisów
treści oraz niektóre hiperłącza wskazywały na
nieistniejący dokument czy też stronę
publikacji, co było oczywiście efektem wielu
poprawek nanoszonych podczas paroletniego
jej powstawania. Dodatkowym utrudnieniem
było to, że konwersję należało przeprowadzić
tak, by powstała publikacja w formacie DjVu
posiadała przeszukiwalną warstwę tekstową dla
wszystkich języków, w których ją
przygotowano, a zatem dla języka
francuskiego, polskiego, greckiego i
angielskiego. Aby wraz z konwersją publikacji
w formacie pdf do formatu DjVu wykonać
jednocześnie analizę wszystkich jej elementów
nawigacji, odszukać hiperłącza i wskazania
wadliwe, a następnie zastąpić je właściwymi,
przygotowano aplikację współpracującą z
programem DocumentExpress Enterprise. Efekt
konwersji do formatu DjVu dostępny jest pod
adresem :
http://www.djvu.com.pl/galeria
/PWT/Table_Generale.php
Rozwijalne spisy treści w kilku językach lub
możliwość zaznaczania rozpoznanego na
stronie tekstu jak pokazano obok, to niektóre z
efektów konwersji do formatu DjVu
przeprowadzonej w tak nietypowy - jak
opisano wyżej - sposób.
yródłowa postać publikacji w formacie pdf
posiada rozmiar 267.9 MB i pozwala
wyszukiwać słowa francusko-, angielsko- i
polskojęzyczne. Z kolei skonwertowana do
formatu DjVu postać publikacji w pełni spójna,
a zatem pozbawiona wszystkich wadliwych
wskazań, posiada rozmiar 112.9 MB (około
58% mniej) i pozwala wyszukiwać poza
słowami francusko-, angielsko- i
polskojęzycznymi również fragmenty publikacji
napisane greką. Z treścią publikacji mozna się
zapoznać na stronach papieskiego Wydziału
teologicznego :
w formacie pdf lub w formacie DjVu.
Obok pokazano fragment spisu treści
zawierającego błędne odwołanie "TOME01/01
7 of 8 2010-02-21 15:02
Publikacje elektroniczne w formatach pdf i DjVu http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php
/Texte franais de Saint Marc".
Polecamy ponadto, wspomniane już wcześniej testy, choć dostępne na chwilę obecną wyłącznie w języku angielskim :
Test, a właściwie artykuł odnoszący się do
opublikowanych informacji na temat właściwości
formatu pdf.
Bardzo ciekawy test uwzględniający również pliki
pdf, w których zastosowano optymalizacje CVision
oraz SPE.
Pazdziernik 2006
Grzegorz Bednarek
GB Soft, Zabrze
grzegorz@djvu.pl
http://www.djvu.com.pl
8 of 8 2010-02-21 15:02
Wyszukiwarka
Podobne podstrony:
Jak zrobić PDF z wieloplikowego DjVuCzy wyszukiwarka Google indeksuje dokumenty PDFaktualny projekt programu przesiew w PDF na stroneSzczęście czy fart PDFAstma u dzieci najmłodszych czy i jak rozpoznawać pdfCzy istnieją podziemne światyHeller Czy fizyka jest nauką humanistycznąfunction pdf execute imageRzym 5 w 12,14 CZY WIERZYSZ EWOLUCJIChlopiec czy dziewczynkaLitania do Ducha Świętego x2 A4 PDFSZKLANE CZY WĘGLOWE WŁÓKNA W KOMPOZYTACH POLIMEROWYCHfunction pdf set horiz scalinginfo Gios PDF Splitter And Merger 1 11Goralu czy ci nie zal txttwarda negocjacja pdfwięcej podobnych podstron