Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
Wykład 12. XML jako nowoczesny standard zapisu i wymiany
dokumentów
1. Różnorodność sposobów zapisu informacji
Wyobrazmy sobie sytuację posiadamy pewną ilośd waluty (powiedzmy dolarów) i
chcemy je sprzedad po jak najwyższej cenie. Codziennie sprawdzamy tabele kursów walut w
Internecie, żeby stwierdzid, czy po aktualnym kursie opłaca nam się dziś sprzedad dolary. Ale
jest to nieco kłopotliwe. Lepiej byłoby żeby komputer sprawdzał to za nas i poinformował
nas tylko wtedy gdy cena osiągnie wymagany poziom.
Na przykład tabela kursów walut może wyglądad na stronie WWW następująco:
Symbol waluty Kupno Sprzedaż Data
USD 3,50 3,57 27.02.1999
A tak wygląda zapis tej tabeli w HTML-u:
Symbol waluty | Kupno | Sprzedaż | Data |
USD | 3,50 | 3,57 | 27.02.1999 |
A jak powinny wyglądad dane, aby były użyteczne także dla komputera?
Na przykład tak:
USD
3,50
3,57
27.02.1999
XML jest to skrót od Extensible Markup Language, co oznacza rozszerzalny język
znaczników. XML pochodzi od języka SGML (Standard Generalized Markup Language), który
służy do przygotowywania formatu i obróbki dokumentów elektronicznych w celu wymiany
danych pomiędzy różnymi programami i systemami operacyjnymi. SGML pozwala także na
prezentowanie metadanych związanych z dokumentem i jego powiązao hipertekstowych.
Wynalazcą SGML jest Charles Goldfarb z ośrodka badawczego firmy IBM. SGML został
przyjęty w 1986 roku jako międzynarodowa norma dotycząca strukturalizacji dokumentów
elektronicznych (ISO 8879).
1
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
Pomysł polegał na odróżnieniu struktury logicznej tekstu od formy jego prezentacji. Od
tego czasu tekst stał się również obiektem zainteresowao informatyki strukturą danych
znakowaną w celu przetwarzania, a nie tylko typografii. Rozszerzalny język znaczników XML
którego rozwój rozpoczął się jeszcze w 1996 r., podejmuje próbę rozwiązania problemu
stworzenia reprezentacji komputerowej ustrukturyzowanych danych, np. zamówieo
sprzedaży, kart pacjentów, przepisów itd. HTML nie oferuje praktycznie nic w kontekście
ułatwieo tego typu. Znaczniki HTML a zorientowane są na prezentację, a nie na zawartośd.
Wyjaśnienie znaczenia słowa markup ułatwi z pewnością zrozumienie idei tego języka.
Jest to termin techniczny, zdefiniowany przez The Chicago Manual of Style (biblię
amerykaoskich wydawców) jako proces znakowania przeznaczonej do składu kopii rękopisu,
wskazówkami dotyczącymi użycia rodzajów i rozmiarów czcionek, spacji, wcięd itp. Czynnośd
tę można ogólnie określid mianem adjustacji technicznej.
Celem użycia języków takich jak XML jest znakowanie struktury tekstów bez definiowania
ich cech wizualnych. Bill Gates powiedział: "XML, to dane (dostarczane, prezentowane,
przetwarzane) w sposób jaki chcecie"
Przykład:
Wyobrazmy sobie właściciela kantora walut, który chce publikowad swoje kursy w
Internecie, ale tak żeby mogły byd automatycznie pobierane i przetwarzane przez klientów.
USD
3,99
4,07
7.02.1999
DEM
2,19
2,24
7.04.1999
W ten sposób definiujemy własny format dokumentu dostosowany do kodowania
kursów. Opis takiego formatu nazywa się definicją typu dokumentu lub w skrócie DTD. Dla
cytowanego dokumentu XML-owe DTD mogłoby wyglądad tak:
2
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
]>
Dzięki tak precyzyjnej informacji klient, korzystający z udostępnianych przeze mnie
danych wie, czego się może w nich spodziewad i w jakim porządku. Ważne jest, żeby
dokumenty odpowiadały strukturom zadeklarowanym dla nich w DTD. Sprawdzanie tej
zgodności nazywa się z angielska parsowaniem (parsing), a program sprawdzający parserem
(nie mylid z paserem). Teksty przygotowane w ten sposób łatwo można przygotowad do
druku przez nadanie poszczególnym elementom cech typograficznych (krój, stopieo pisma,
położenie na stronie). Można je formatowad na wiele sposobów, a także poddad przeróżnym
transformacjom strukturalnym dzięki jednoznacznej identyfikowalności elementów
struktury.
Z kolei znaczniki można wykorzystad do zindeksowania treści w celu wyszukiwania
informacji, znacznie bardziej precyzyjnego niż tradycyjne pełnotekstowe. Zastosowanie
znaczników sprawia, że teksty zawierają oprócz treści także informacje niezbędne do ich
przetwarzania (metainformacje). Pozwala to na łatwe przenoszenie pomiędzy różnego
rodzaju platformami sprzętowymi oraz obsługę w różnych systemach z użyciem rozmaitych
narzędzi przetwarzających dokumenty zgodnie z zasadami tego oznakowania.
Istotę języka XML można scharakteryzowad w następujących punktach:
XML jest językiem, czyli służy do przekazywania pewnych treści NIE jest jednak
językiem programowania.
Jest językiem znacznikowym, czyli opisuje formę dokumentu, a więc stanowi o
sposobie jego interpretacji.
Jest rozszerzalny, czyli nie posiada ściśle określonego i zamkniętego zbioru
znaczników, pozwala natomiast na definiowanie znaczników w zależności od potrzeb.
XML jest skonstruowany w sposób pozwalający na odizolowanie danych od sposobu
ich prezentacji.
W pliku XML zawarte są dane (liczby, teksty, rysunki, obrazy) i znajduje się referencja do
innego pliku, zwanego arkuszem stylów, który opisuje jak poszczególne dane należy
wyświetlid.
Najczęściej stosowanym typami arkuszy stylów są arkusze CSS i XSL.
3
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
Zalety rozwiązania opartego na arkuszach stylów:
Plik opisujący sposób prezentacji jest jeden, a może byd użyty dla wielu plików z
danymi, a więc zmiana sposobu prezentacji danych jest bardzo prosta. Nie wymaga
edycji wszystkich plików, tylko przeróbki arkusza stylu.
Do jednego pliku z danymi może byd dołączonych wiele arkuszy stylów. Pozwala to
między innymi na odpowiednie formatowanie danych w zależności od urządzenia, z
którego korzysta użytkownik w celu uzyskania dostępu do danych (np. przeglądarka
WWW, przeglądarka WAP w telefonie komórkowym i inne).
Możliwa jest łatwa, automatyczna konwersja danych pomiędzy różnymi aplikacjami
korzystającymi ze wspólnych danych, ale widzianych rozmaicie.
2. Główne cechy XML
XML ma szereg ważnych cech, dzięki którym jest wygodnym i uniwersalnym środkiem zapisu
i wymiany informacji.Wśród zalet XML wymienid można:
Sformalizowany zapis informacji umożliwiający jej bezstratne odczytanie, dokładną
weryfikację poprawności i łatwe dalsze przetwarzanie.
Uniwersalnośd XML pozwala zapisad wszelkie informacje, które mogą byd wyrażone
tekstowo.
Dużą siłę wyrazu za pomocą XML można zapisad nawet bardzo złożone struktury
informacji.
Elastycznośd struktura informacji jest łatwa do rozszerzania i dostosowywania, z
możliwością wykorzystania struktur wcześniej zdefiniowanych.
Możliwośd zróżnicowanej prezentacji dzięki zastosowaniu arkuszy stylów ten sam
dokument może byd różnorodnie prezentowany w zależności od potrzeb i
możliwości.
Aatwośd przetwarzania dzięki prostej i regularnej składni oraz ustandaryzowanym
narzędziom.
Czytelnośd dokumenty XML są zrozumiałe dla człowieka, każdy dokument niesie
bowiem metainformację w postaci znaczników. Ułatwia to posługiwanie się
dokumentami, uruchamianie oprogramowania itd.
Dostosowanie do specyfiki przetwarzania w sieci Web liczne szczegółowe
rozwiązania XML są dostosowane do przetwarzania w Sieci. Popularne narzędzia
internetowe (przeglądarki, serwery aplikacyjne itd.) wyposażono w rozwiązania
(parsery, procesory XSLT itp.) ułatwiające użycie XML.
Internacjonalizację XML może używad wielu różnych stron kodowych, a
przetwarzanie XML odbywa się z użyciem UTF-8.
Niewygórowane koszty do przetwarzania i prezentacji dokumentów XML można
użyd standardowego (często darmowego) oprogramowania. Można zatem tworzyd
rozwiązania bazujące na XML nie ponosząc wielkich nakładów.
Względną prostotę idea języków znakowania jest powszechnie znana, a nawet
zaawansowane rozwiązania są stosunkowo łatwe do zrozumienia.
4
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
Wśród wad XML najistotniejsze to:
Ograniczenia wynikające z hierarchicznej struktury danych w strukturach takich w
naturalny sposób przedstawid można jedynie jeden typ powiązao pomiędzy dwoma
typami obiektów. Jeśli niezbędne jest zapisanie większej różnorodności powiązao, to
trzeba stosowad różne sztuczki w XML z reguły stosuje się identyfikatory
elementów i odesłania do nich, co jest nieco podobne do typowych rozwiązao
relacyjnych, ale nie ma wiele wspólnego z hierarchiczną strukturą dokumentu.
Rozwlekłośd zapisu decyduje o niej znaczny narzut na znaczniki niosące
metainformację. Nie jest to na ogół wadą istotną, np. przy przesyłaniu informacji
stosowad można kompresję, która jest zwykle bardzo efektywna.
Problemy z wydajnością przetwarzania wynikające zarówno z rozwlekłości plików
jak ze stosowania uniwersalnych (nieoptymalnych dla konkretnych zastosowao)
narzędzi. Dla małych dokumentów ograniczenia wydajności zwykle nie stanowią
problemu, dla dokumentów większych stosowanie odpowiedniego typu parserów
(np. SAX) daje na ogół wydajnośd dostatecznie dobrą.
Niedostatki implementacji standardów XML-owych, zwłaszcza niepełna
implementacja standardów w przeglądarkach WWW co powoduje, że XML nie
może wciąż jeszcze byd stosowany jako podstawowy język wymiany informacji w sieci
Web.
Na bazie XML powstały liczne języki specjalizowane:
MathML matematyczny - umieszczanie notacji matematycznej na stronach www
CML chemiczny język znaczników pozwalający opisywad cząsteczki
BITS Język technologii bankowych
OFX Wymiana danych finansowych
BIPS Bankowy system płatności internetowych
TIM Znaczniki wymiany danych telekomunikacyjnych
ebXML XML dla biznesu elektronicznego
SVG Język opisu grafiki wektorowej wprowadzony przykłady dostępne na:
http://www.w3schools.com/svg/svg_examples.asp
SMIL SMIL (wym. "smail", ang. Synchronized Multimedia Integration Language) jest
standardem zalecanym przez W3C do opisu prezentacji multimedialnych z wykorzystaniem
XML. SMIL określa m.in. znaczniki synchronizacji, układu, animacji, przejśd obrazu oraz
zagnieżdżania. Pozwala na wstawianie obrazu, animacji, muzyki oraz filmów i umożliwia
synchronizację tych elementów.
Nadzwyczajna kariera XML wydaje się mied wiele przyczyn, wśród których najważniejsze to:
szeroka akceptacja dla koncepcji języków znakowania (SGML ma długą tradycję,
HTML jest zaś powszechnie znany);
rozwój koncepcji e-business (można tu nawet mówid o rodzaju mody);
5
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
związana z tym silnie odczuwana potrzeba środków sformalizowanej wymiany
informacji w Sieci (HTML nie spełnia oczywiście tej potrzeby w stosunku do
informacji, która ma byd dalej przetwarzana automatycznie).
Sam w sobie XML nie wnosi żadnych rewolucyjnych rozwiązao: idea języków znakowania
jest dośd stara, koncepcja hierarchicznych struktur danych jeszcze starsza. Jednak, jak się
wydaje, XML podał te koncepcje w nowym, atrakcyjnym dla użytkowników opakowaniu;
pojawił się też w odpowiednim momencie, trafiając na wielkie zapotrzebowanie. To co jest w
XML istotnie no-we, to szeroka akceptacja standardów oraz duża dostępnośd tanich (lub
zgoła darmowych) narzędzi.
Do kariery XML istotnie przyczynili się też główni wytwórcy oprogramowania, którzy
szybko dostrzegli możliwości tej technologii i włączyli do swoich popularnych produktów
elementy wsparcia dla niej, poważnie traktując potrzebę zgodności swych produktów z XML-
owymi standardami. Pozycja XML szybko się ugruntowała i nie wydaje się zagrożona, a
obszar jego zastosowao wciąż rośnie.
3. Typowe zastosowania XML
Jak się wydaje, intencją twórców XML było początkowo stworzenie języka, który mógłby
zastąpid HTML jako narzędzie do tworzenia stron WWW w tych zastosowaniach, w których
niezbędna jest większa formalizacja przekazu informacji, gdyż informacja ma byd dalej
przetwarzana. Tymczasem jednak rzeczywiste zastosowania XML ukształtowały się inaczej,
przede wszystkim koncentrując się wokół elektronicznej wymiany danych.
Ważniejsze typowe zastosowania XML krótko scharakteryzowano poniżej.
Tworzenie stron internetowych
XML staje się coraz bardziej popularny w tym zastosowaniu. Strony w XML spotyka się
najczęściej w zastosowaniach specjalistycznych, głównie związanych z gospodarką
elektroniczną. XHTML jest dialektem XML, co pozwala na użycie wszystkich standardów i
narzędzi XML-owych do tworzenia i przetwarzania stron WWW. Komunikacja mobilna
również korzysta z języka WML, który jest dialektem XML.
Opis zasobów
Sprawne wyszukiwanie informacji w Sieci jest, jak wiadomo, trudne. Jedną z głównych
przyczyn jest brak dających się przetwarzad maszynowo opisów (deskryptorów) zasobów
dostępnych w Internecie. XML nadaje się bardzo dobrze do tworzenia takich, czytelnych i
łatwych w przetwarzaniu, deskryptorów zasobów sieciowych, oprogramowania itp. Spośród
propozycji standardów tego typu opisów najważniejsze są RDF (Resource Description
Framework) oraz OWL (Web Ontology Language).
6
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
Specyficzny rodzaj opisu zasobów zapewnia WSDL (Web Services Description Language). Jest
to język opisu usług sieciowych (Web services), pozwalający opisywad owe usługi i sposób ich
wywoływania.
Reprezentacja informacji semistrukturalnej
XML jest niezastąpionym środkiem reprezentowania informacji semistrukturalnej, tzn. takiej,
gdzie informacje mają pewną strukturę, ale jest ona zmienna, słabo ustalona czy też
częściowo nieistotna. Typowym przykładem takiej informacji są złożone dokumenty
tekstowe, mające wprawdzie strukturę akapitów, podrozdziałów i rozdziałów, ale słabo
sformalizowaną. Tego typu informacje dają się bez większych trudności zapisywad w XML,
zaś bardzo zle reprezentuje się je w relacyjnych bazach danych. XML może tu zatem stanowid
dobre uzupełnienie możliwości typowych baz danych.
Multimedia
XML znalazł dośd szerokie zastosowania związane z multimediami, w co najmniej dwóch
aspektach: bezpośredniego zapisu informacji multimedialnej, np. grafiki wektorowej
(Scalable Vector Graphics SVG) oraz sterowania przetwarzaniem informacji multimedialnej
(np. SMIL czy Voice-ML).
Specjalistyczne struktury danych
Jednym z pierwszych zastosowao XML w pełni zgodnym z pierwotnymi intencjami twórców
języka jest tworzenie specjalistycznych struktur do przekazywania informacji naukowej,
ekonomicznej itp. w społeczności specjalistów z danej dziedziny. Powstają zarówno
specjalistyczne dialekty, mające charakter środowiskowych standardów (np. MathML do
zapisu wzorów matematycznych, CML Chemical Markup Language), jak i struktury
tworzone ad-hoc na potrzeby konkretnych organizacji czy projektów.
Komunikacja w sferze publicznej
Specjalną rolę XML może i powinien odegrad w komunikacji w sferze publicznej, zwłaszcza w
wymianie informacji między obywatelem czy przedsiębiorstwem a urzędem. Zastosowanie
do takiej wymiany otwartego standardu jakim jest XML likwiduje przewagę, którą uzyskują
firmy tworzące oprogramowanie dla urzędów. Istnienie takiej przewagi, a co za tym idzie
przymusowe związanie obywateli czy przedsiębiorstw z określonym dostawcą
oprogramowania, jawnie kłóci się z zasadami wolności gospodarczej i w praworządnym
paostwie nie powinno mied miejsca (na gruncie krajowym wspomnied tu można sprawy
formatu wymiany danych z ZUS czy gromadzenia danych przez b. Kasy Chorych). Tymczasem
w XML informacje wymieniad może nawet podmiot nie dysponujący specjalistycznym
oprogramowaniem; do utworzenia odpowiedniego pliku danych wystarczad bowiem
powinien dowolny edytor tekstowy, jeśli tylko format danych jest odpowiednio dobrze
udokumentowany i opublikowany. Tego typu próby były (i nadal będą) podejmowane,
7
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
przykładem może byd projekt formatu gromadzenia danych medycznych, ostatecznie
porzucony z przyczyn dalekich od merytorycznych.
Elektroniczna wymiana danych (EDI)
Mającym obecnie największe znaczenie zastosowaniem XML jest, jak się wydaje,
elektroniczna wymiana danych i dokumentów (EDI). XML idealnie nadaje się do wymiany
dokumentów za pośrednictwem sieci Internet, np. w zastosowaniach z dziedziny handlu
elektronicznego typu B2B (business to business) czy przy integracji systemów
heterogenicznych. Ze względu na swą prostotę oraz dostępnośd narzędzi, XML zapewne
wyprze klasyczne technologie i standardy EDI.
W dziedzinie EDI istnieje znaczny dorobek standaryzacyjny co do treści dokumentów
komunikatów dotyczących różnych dziedzin życia. Koncepcja XML/EDI zakłada zachowanie
tego dorobku przez zawarcie semantyki wcześniej ustandaryzowanych komunikatów (np.
EDI-FACT) w składni XML.
Konfiguracja oprogramowania
XML stał się bardzo popularny jako format zapisu różnego rodzaju plików konfiguracyjnych
oprogramowania. XML jest prosty, łatwy w interpretacji przez użytkownika, a do
interpretacji zawartości plików konfiguracyjnych użyd można standardowych parserów, co
ułatwia pracę programistom.
Protokoły komunikacyjne
XML znalazł także zastosowanie w różnego rodzaju protokołach wymiany komunikatów,
zdalnego wywoływania procedur itp. Jego zastosowanie zapewnia czytelnośd przesyłanych
komunikatów, umożliwia też zastosowanie standardowych parserów XML do interpretacji
tych komunikatów. Przykładami tego typu zastosowao są protokoły SOAP, XML-RPC i Web-
DAV.
Rysunek 1. Schemat wymiany dokumentów i danych w Internecie z wykorzystaniem technologii XML.
yródło: http://www.pckurier.pl/inetools/xml4pc_1.html
8
Materiały dydaktyczne do przedmiotu Nowoczesne Standardy Informacyjne w Logistyce
4. Materiały zródłowe
1. North S.: XML dla każdego, Wyd. Helion 2000
2. Romowicz W.: XML. Dwiczenia praktyczne, Wyd. Helion 2001
3. Tomczyk T.: XML stan obecny i trendy rozwojowe
http://www.ia.pw.edu.pl/~ttraczyk/pdf/ploug2003_art.pdf
4. Przykłady grafiki w języku SVG http://www.w3schools.com/svg/svg_examples.asp
9
Wyszukiwarka
Podobne podstrony:
wyklad 7 12wykład 12wyklad 9 12 makro hellerWyklad 12 Podstawowe typy zwiazkow chemicznych blok s i p PCHN SKP studportWyklad 12 europejski nakaz dochodzeniowyWyklad 12 Elektryczność i magnetyzm Prawo GaussaGeo fiz wykład 12 12 2012wykład 12 ETIWykład 1 (12 03 2011) ESIWykład 7 8 12 12Socjologia wyklady 1 12(1)standardy zapisu bibliograficznegoWYKŁAD 12 SKAŁY OSADOWEWyklad 12 Kryzys finansowyWyklad 12 stacj Genetyka z biotechnWykład 8 8 12 12Wykład 12więcej podobnych podstron