r15 05 (23)


Rozdział 15.
Aplikacje
i protokoły WWW

W tym rozdziale:

Pojęcie infostrady (information superhighway) — które odnosi się do globalnej sieci telekomunikacyjnej i technologii używanych w handlu, edukacji, rozrywce i tak dalej — zrewolucjonizowało sposób, w jaki ludzie komunikują się ze sobą. Szkieletem tej sieci globalnej jest Internet i WWW.

Niniejszy rozdział omawia strukturę i funkcję WWW, rolę World Wide Web Consortium (W3C) w rozwoju standardów dla Sieci, język HTML, służący do tworzenia dokumentów w Sieci, oraz protokół HTTP. Przedstawione zostaną w nim również różne aplikacje związane z WWW.

Podstawy WWW

Czym jest Internet? Czym jest WWW? Czy tych dwóch pojęć możemy używać zamiennie? Jak powstały te technologie? Bieżący podrozdział odpowiada na powyższe pytania.

Internet — wprowadzenie

Internet jest zbiorem komputerów, połączonych ze sobą w celu wspólnego korzystania z informacji. Internet nie jest pojedynczą siecią, lecz raczej siecią złożoną z innych sieci, które używają do komunikacji wspólnego protokołu TCP/IP.

Internet powstał z sieci ARPANET, utworzonej przez agencję rządową Stanów Zjednoczonych DARPA (Defense Advanced Research Project Agency) w 1969 roku. Sieć ARPANET stanowiła odporny na uszkodzenia komputerowy system łączności, który był w stanie przetrwać utratę jednego lub kilku centrów komputerowych, na przykład baz wojskowych lub miast. Na początku ta sieć składała się z czterech komputerów głównych, używających do komunikacji protokołu NCP (Network Control Protocol). Technologia stosowana w łączności pomiędzy nimi nosiła nazwę komutacji pakietów (packet switching). Protokół NCP nie był jednak w stanie obsłużyć rosnącego stale ruchu sieciowego, wobec czego w roku 1974 zostały zaproponowane i zaimplementowane TCP (Transmission Control Protocol) oraz IP (Internet Protocol) — bardziej solidne protokoły komunikacyjne.

0x01 graphic

Proces komutacji pakietów polega na podziale komunikatów z danymi na małe pakiety. Pakiet przypomina list — zawiera część komunikatu i adres odbiorcy. Każdy pakiet jest przesyłany przez sieć indywidualnie. Po osiągnięciu przez wszystkie pakiety miejsca przeznaczenia, są one reorganizowane z powrotem w kompletny komunikat. Na technologii komutacji pakietów opiera się protokół TCP/IP.

W latach 80. naukowcy i organizacje zdały sobie sprawę z korzyści, jakie przynosi sieć ARPANET. Na skutek tego sieć rozrosła się, obejmując sieci uniwersytetów, korporacji i społeczności użytkowników. Od roku 1982 sieć ARPANET jest znana powszechnie pod nazwą Internet. Możliwości i zasięg Internetu spowodowały, że w ciągu zaledwie kilku lat nastąpił niewiarygodny wręcz rozwój Sieci. Różnorodne usługi — Gopher, WAIS (Wide Area Information Server) i WWW — zostały opracowane w jednym celu: aby pomóc użytkownikom korzystać z danych w Internecie.

0x01 graphic

Gopher (dosł. suseł) jest programem opracowanym w 1991 r., który dzieli informacje na logiczne kategorie i organizuje je w hierarchiczną strukturę drzewa. WAIS jest programem wyszukującym dokumenty w Internecie.

Korzystanie z usług Gopher i WAIS skończyło się wraz z rozwojem WWW. Większość baz danych Gophera jest przekształcana na strony WWW, łatwo dostępne za pomocą wyszukiwarek internetowych.

Ewolucja WWW

Najpopularniejszą metodą udostępniania informacji w Internecie jest format znany pod nazwą WWW (World Wide Web — ogólnoświatowa pajęczyna lub po prostu Web). WWW składa się z plików zwanych stronami WWW, które zawierają informacje i łącza do innych stron WWW. Przed pojawieniem się tej usługi, dane były przesyłane jako tekst lub w postaci kodu binarnego. WWW dodaje zdolność do zawarcia tekstu, grafiki, dźwięku i animacji w pojedynczym pliku.

Standard WWW został opracowany w 1991 roku w instytucie CERN (European Center for Nuclear Research). Fizycy w CERN potrzebowali szybkiego mechanizmu udostępniania swoich informacji badawczych innym naukowcom na całym świecie. Jeden z tych fizyków, Tim Berners-Lee, zaproponował tekstowy system hipertekstu mający służyć do wymiany danych pomiędzy fizykami zaangażowanymi w badania w dziedzinie fizyki wysokich energii. W użytej przez niego technice hipertekstowej wskazanie na wyróżnione słowo lub frazę kierowało użytkownika do nowej strony w tym samym komputerze lub do zdalnego komputera w sieci.

W roku 1993 w National Center for Supercomputer Applications (NCSA) opracowano przyjazny dla użytkownika program, który udostępniał graficzny interfejs WWW. Program ten, noszący nazwę Mosaic, był pierwszą internetową przeglądarką graficzną, która pozwalała użytkownikom pobierać informacje przez proste wskazanie na łącze i kliknięcie. Spowodowało to szybki rozwój WWW. W chwili obecnej dostępnych jest wiele przeglądarek WWW opartych na Mosaic; zaliczają się do nich popularne Netscape Navigator i Internet Explorer.

0x01 graphic

Nazwa World Wide Web odnosi się do zbioru informacji w Internecie, które charakteryzuje kolorowa grafika i łącza hipertekstowe. Przeglądarka (browser) to narzędzie, które pozwala użytkownikowi przeglądać informacje zawierające grafikę i łącza.

Jak funkcjonuje WWW

WWW opiera się na modelu klient-serwer. W tym modelu program kliencki wysyła żądanie do programu serwera, który zwykle funkcjonuje w zdalnym komputerze. Klient i serwer komunikują się ze sobą przez Sieć. Serwer po otrzymaniu żądania od klienta nawiązuje z nim połączenie, przetwarza żądanie, wysyła wyniki do klienta i zamyka połączenie. W przypadku WWW żądania do serwera zgłaszają przeglądarki WWW, na przykład Internet Explorer lub Netscape Navigator. Każdy komputer, który przechowuje strony WWW zawierające informacje żądane przez klienta, może grać rolę serwera. Strony WWW są pisane w języku HTML (HyperText Markup Language — język hipertekstowego znakowania informacji). HTML daje przeglądarce instrukcje, jak należy wyświetlić stronę. Klient i serwer komunikują się ze sobą za pomocą protokołu warstwy aplikacji, noszącego nazwę HTTP (HyperText Transfer Protocol — protokół przesyłania hipertekstu).

Użytkownik, który chce skorzystać z informacji w Sieci, podaje w przeglądarce adres URL — Uniform Resource Locator (jednolity lokalizator zasobów). Adres URL jest unikatowym identyfikatorem, który definiuje trasę do pliku w komputerze przyłączonym do Internetu. URL może być również osadzony w dokumencie i przedstawiony użytkownikowi jako łącze hipertekstowe. Funkcjonowanie WWW przedstawia rysunek 15.1.

Rysunek 15.1.

Działanie
World Wide Web

0x01 graphic

Format URL wygląda następująco:

<Identyfikator protokołu>://<nazwa serwera>[:<port>]
*[/<ścieżka do dokumentu HTML>][<nazwa pliku HTML>]

Na przykład:

http://www.helion.pl/katalog.htm

http oznacza protokół używany do komunikacji pomiędzy klientem i serwerem. Możemy podać jeden z następujących protokołów:

Po protokole następuje adres serwera WWW (w naszym przykładzie www.webknow­led­gebase.com). Sufiks com wskazuje na organizację komercyjną. Pozostałe przyrostki to:

W przykładowym URL numer portu nie został podany, wobec tego zostanie użyty domyślny dla HTTP port 80. definition jest folderem w serwerze WWW, w którym żądana strona jest przechowywana, zaś ARPANET.html jest żądaną stroną.

Gdy użytkownik wpisze URL w polu przeglądarki lub kliknie łącze hipertekstowe, przeglądarka wysyła do wyszczególnionego serwera WWW żądanie strony. Serwer WWW pobiera żądaną stronę i wysyła ją do przeglądarki, która stronę odczytuje, interpretuje zawarte w niej instrukcje i wyświetla wynik.

HTML

Język HTML (HyperText Markup Language — język hipertekstowego znakowania informacji), jak nazwa wskazuje, jest językiem znakowania (adiustacyjnym), używanym do tworzenia stron WWW. Język znakowania używa zbioru etykiet, zwanych znacznikami (tag), osadzonych w tekście. Znaczniki są niewidoczne dla czytelnika i nie stanowią elementu składowego zawartości dokumentu, lecz wzbogacają dokument, definiując jego strukturę i sposób wyświetlania.

HTML pochodzi od języka SGML (Standard Generalized Markup Language — standardowy uniwersalny język znakowania), lecz jest o wiele łatwiejszy w użytku. HTML stanowi standard de facto sposobu, w jaki informacje są organizowane i wyświetlane. Pozwala więc różnym producentom tworzyć różne przeglądarki dla różnych platform programowych i sprzętowych, wyświetlające dane w sposób w miarę zbliżony.

0x01 graphic

Język SGML, wprowadzony w 1986 r., był pierwszym opracowanym językiem znakowania, który dostarczał i wyświetlał dokumenty niezależnie od używanej platformy. Ponieważ SGML jest językiem rozbudowanym i trudnym do nauczenia, Tim Berners-Lee opracował i zdefiniował (w roku 1990) język HTML, jako język znakowania służący do tworzenia stron WWW.

Wersje języka HTML

Od momentu powstania, HTML przeszedł szereg zmian. Istnieją następujące wersje tego języka: