|
Definicja usług wideotelefonii i wideokonferencji |
Na podstawie opracowania "MODEL KOMUNIKACJI MULTIMEDIALNEJ H.320, H.323." Bożeny Erdmann Usługa wideotelefonii to audiowizualna teleusługa konwersacyjna, zapewniająca dwukierunkowy, symetryczny przekaz sygnału głosu i kolorowego obrazu ruchomego pomiędzy dwoma lokalizacjami (użytkownik - do - użytkownika) w czasie rzeczywistym, poprzez leżące pomiędzy nimi sieci. Wymagania minimalne zakładają, że w warunkach normalnych transmitowana informacja wideo jest wystarczająca do odpowiedniego odwzorowania płynnych ruchów osoby, w ujęciu przedstawiającym głowę i ramiona. Usługa wideokonferencji zapewnia dwukierunkowy przepływ sygnału głosu i kolorowego obrazu ruchomego pomiędzy grupami użytkowników w dwu lub więcej oddzielnych lokalizacjach. Wymagania minimalne zakładają, że w warunkach normalnych transmitowana informacja wideo jest wystarczająca do odpowiedniego odwzorowania płynnych ruchów dwóch lub więcej osób w sytuacji typowej dla posiedzenia, w ujęciu przedstawiającym głowę i ramiona. Funkcje przewidziane definicją - uzupełnione o niezbędną sygnalizację i sterowanie - mogą, ale nie muszą być rozszerzone na dalsze usługi transmisyjne: transmisję obrazów nieruchomych wysokiej rozdzielczości, dokumentów, zdjęć, tabel itd. Rozróżnia się dwa rodzaje usług wideotelefonicznych: w sieciach wąsko - i szerokopasmowych, przy czym główna różnica tkwi w rozdzielczości przestrzennej i czasowej przekazywanych obrazów (dla sieci szerokopasmowych o jakości zbliżonej do standardowej jakości telewizyjnej), jakości dźwięku (w sieciach szerokopasmowych w miarę możliwości stereo) oraz opcjonalnym / standardowym wyposażeniu w urządzenia do transmisji innych sygnałów (łącznie z filmami, instruktażami oraz obrazami 3D). Rozważa się również możliwości dostępu do poczty elektronicznej za pośrednictwem terminala wideotelefonicznego. Zakłada się również, że powinna istnieć możliwość wyboru prędkości transmisji dla sygnału głosowego, zwłaszcza, gdy może mieć to wpływ na opłaty lub jakość transmisji wideo. Celem realizacji funkcji podstawowych terminal wyposażony musi być w urządzenia realizujące: odbiór i prezentację obrazu oraz głosu drugiej strony, kodowanie audio i wideo oraz zarządzanie interfejsem sieciowym (dla połączeń wideotelefonicznych wielopunktowych wymagane być mogą dodatkowe funkcje) możliwe rozszerzenia wyposażenia terminala wideotelefonicznego: ruchoma kamera i powiększenie (zoom), interfejsy dla dodatkowej kamery, ekrany, zapisu wideo, zdalne sterowanie zdalną kamerą, klawiatura dla usług tekstowych. Najważniejszym zadaniem jest, aby terminal wideotelefoniczny spełniał wszystkie funkcje zwykłego telefonu. Musi istnieć możliwość połączenia się ze zwykłym telefonem (procedury fall back) o szerokości pasma analogowego 3.1 kHz, 7 kHz lub wideotelefonem w innej sieci lub innego producenta, z dodatkowym zagwarantowaniem krótkiego czasu zestawiania połączenia. Wideoterminal musi mieć zaimplementowane procedury kodowania G.711 (jest to wymaganie minimalne): PCM według prawa mi oraz A. Dodatkowo powinna istnieć możliwość dwuetapowego zestawiania połączenia wideotelefonicznego: pierwsza faza obejmuje zastawianie połączenia głosowego, zaś po jego utworzeniu, na życzenie użytkowników, dodać można kanał wideo. Jeśli cała wymagana dla takiej transmisji przepływność nie jest dostępna, rozmowa powinna być kontynuowana, z maksymalną osiągalną jakością transmisji sygnału wideo. Musi istnieć możliwość - tak dla strony wywołującej, jak i wywoływanej - wyłączenia wychodzącego sygnału wideo bez przerywania istniejącego połączenia; przewidziany być powinien na tę okoliczność obrazek zastępczy. Zakłada się istnienie opcji prezentacji użytkownika na własnym terminalu (self - view), aktywowanej przed lub w trakcie połączenia. Ważną zaletą jest możliwość użycia wideotelefonii w komunikacji osób z upośledzeniem organów mowy lub słuchu, posługujących się np. językiem migowym. Z tego względu informacja o kolejnych etapach zestawiania połączenia powinna być, oprócz standardowej sygnalizacji dźwiękowej, wyświetlana na ekranie w formie napisów lub obrazów; ewentualnie również z prezentacją procesów po stronie wywoływanej. Wymagana jest synchronizacja dźwięku z obrazem (brak dostrzegalnych opóźnień). Należy uwzględnić całkowite opóźnienie wprowadzane przez kodeki oraz urządzenia transmisyjne.
Możliwe są następujące konfiguracje połączenia wideotelefonicznego: Wideokonferencja w sieci wąskopasmowej traktowana jest jako oddzielna teleusługa, nie zaś usługa dodatkowa w ramach wideotelefonii. Teleusługa wideotelefoniczna Teleusługa wideotelefoniczna jest symetryczną, dwukierunkową, audiowizualną usługą czasu rzeczywistego, polegającą na wymianie sygnału mowy i obrazów ruchomych za pośrednictwem jednego lub dwóch kanałów B, z użyciem połączeń ISDN 64 kbit/s. Połączenie dwukanałowe zestawiane być powinno dwuetapowo (jednak z użyciem tej samej informacji adresowej): (Call 1) najpierw kanał, dedykowany dla transmisji multimedialnej (sygnał mowy wysokiej jakości + wideo + dane), następnie (Call 2) kanał drugi, przeznaczony dla transmisji wideo. Po zestawieniu obu następuje fazowanie sygnałów i regulacja opóźnienia międzykanałowego aż do osiągnięcia pełnej synchronizacji. Call 1 sygnalizowane być powinno sygnałem dzwonienia, Call 2 powinien być automatycznie odbierany przez interfejs po stronie wywoływanej. Jeżeli najpierw zestawione zostanie połączenie rozmówne o paśmie 3.1 kHz, a następnie użytkownik zażyczy sobie zmiany usługi na wideotelefonię, należy podjąć próbę ramkowania sygnału i zmiany ustawień terminali, tak jednak, aby nie zaburzać komunikacji głosowej. Istnieje niebezpieczeństwo, że nie zawsze będzie to możliwe, wówczas należy ponownie zestawić połączenie, od razu w trybie wideotelefonicznym. Jakość przenoszonej mowy powinna być jak dla ISDN - owej transmisji sygnału mowy o paśmie analogowym 3.1kHz lub 7 kHz. Można korzystać z opcji, w której terminal wideotelefoniczny zaprogramowany jest tylko do i odbierania połączeń wideotelefonicznych (dla użytkowników, posiadających kilka terminali, np. wideotelefoniczny i standardowej telefonii 3.1 kHz na jednym złączu). Praktyka wskazuje, że dostępna ostatecznie dla użytkownika przepływność 2B + D (128 kbit/s), która nie zapewnia dobrej jakości transmisji obrazu i dźwięku. Konieczność dynamicznego przydzielania wąskiego pasma powoduje znaczące opóźnienia w transmisji sygnału audio. Wideokonferencja
Wyróżnia się dwa rodzaje usług wideokonferencyjnych:
Wśród wideokonferencji wielopunktowych można dalej rozróżnić: W ramach podstawowych usług wideokonferencyjnych, wymagających przepływności n 384 kbit/s transmitowany jest standardowo (w większości terminali uwzględniono tę dodatkową obok 3.1 kHz opcję) sygnał audio o analogowej szerokości pasma 7kHz, więc postrzegana subiektywnie jakość nie różni się od oferowanej przez rozszerzone usługi wideokonferencyjne.
Opcje dodatkowe dla usługi wideokonferencji obejmują: podział ekranu, transmisję faksową, szyfrowanie danych, przewodniczenie wideokonferencji (dla połączeń wielopunktowych), identyfikację rozmówcy. Dodatkowe wyposażenie terminala wideotelefonicznego dla celów wideokonferencji obejmować może: kilka mikrofonów, sterowanych głosem lub ręcznie; kamera realizująca różne ujęcia, identyfikacja wyświetlanej na ekranie strony, panel do sterowania konferencją. Przewiduje się też możliwość wykorzystania usługi wideokonferencji do innych (niż biznesowe) zastosowań, jak np. transmisji sygnałów rozsiewczych TV, telenauczania, dyskusji panelowych itd.
Zasady, które ujednolicić należy, aby prowadzić można było wideokonferencje pomiędzy różnymi operatorami:
Wyróżnia się rozmaite tryby konferencji wielopunktowej, ze względu na przydział ekranu dla poszczególnych stron uczestniczących w połączeniu i funkcje sterowania prezentowanym obrazem:
Sposób inicjalizacji konferencji (w ISDN): Dla każdego użytkownika musi istnieć możliwość czasowego wyłączenia nadawania dźwięku lub obrazu, fakt ten powinien być sygnalizowany pozostałym stronom. Uwzględniając możliwość postrzegania ruchów i mimiki twarzy, wydaje się, że wystarczającym będzie wyświetlanie równocześnie 3 rozmówców na standardowym monitorze wideo. Wydaje się również, że konferencja trójstronna to sytuacja najbardziej typowa dla posiedzeń biznesowych. Patrząc z perspektywy czasu, kiedy ciężar komunikacji multimedialnej przesunął się z sieci szerokopasmowych na sieci nie gwarantujące jakości transmisji (QoS), a więc przede wszystkim sieci z protokołem IP zauważyć trzeba, jak dobrze w zalecenia te wpisuje się komputer osobisty jako wielozadaniowy i multimedialny terminal. Telekomunikacja multimedialna jako zagadnienie techniczne Zalecenia szkieletowe
Zalecenia definiujące usługi wideotelefoniczne specjalizowane są dla danego typu techniki dostępowej / sieci transmisyjnej. ITU - T zdefiniowało dostęp do usług audiowizualnych poprzez: -cyfrową sieć z integracją usług (ISDN); -standardową sieć telefoniczną (PSTN); -sieci pakietowe nie gwarantujące jakości usług; -sieci pakietowe z gwarancją jakości usług.
-H. 321 oraz H.310 definiuje usługę wideotelefonii w szerokopasmowych sieciach z integracją usług (sieciach B - ISDN oraz ATM); określają sposób adaptacji sygnału wideotelefonicznego H.320 do zwiększonej przepływności dla ATM oraz B - ISDN (w H.310 zalecany jest standard kompresji MPEG-2);
zalecenie to określa dodatkowo oprócz funkcji terminala wideotelefonicznego, funkcje gatekeepera, "mózgu sieci H.323", pozwalającego administratorowi sieci lokalnej LAN rezerwować przepustowość kanału, wymaganą dla konferencji i poszczególnych użytkowników, a także sterować konferencjami; do dalszych zadań gatekeepera należy: adresowanie, translacja adresów (np. z numeracji telefonicznej E.164 na aliasy, adresy IP itd.), autoryzacja oraz autentyfikacja terminali (dopuszczenie do udziału w połączeniu tylko terminali wcześniej zarejestrowanych) i bram; zarządzanie siecią (obszarem), kierunkowanie wywołań, zaliczanie, bilingowanie, mogą one również zajmować się usługami routingu sygnalizacji rozmównej (jest to opcja korzystna, umożliwia bowiem inteligentny routing, zapewniający np. równomierność obciążenia sieci). Instalacja aplikacji gatekeepera w sieci LAN wymagana jest w przypadku: Jeżeli pasmo, przeznaczone do celów wideokonferencji jest stosunkowo małe, gatekeeper nie jest obowiązkowy. Jeżeli wymagane jest tylko sterowanie terminalami końcowymi H.323, wystarczy ulokować aplikacje sterujące na serwerze LAN. Natomiast, kiedy w sieci zainstalowane są MCU lub brama H.32x, należy skorzystać z aplikacji sterujących, udostępnionych wraz z wyposażeniem przez ich producenta.
-funkcje bramy (geteway'a) pomiędzy siecią lokalną LAN a siecią wąskopasmową wg zalecenia H.320, gwarantującą współpracę aplikacji H.323 z innymi terminalami serii H.32x;
-funkcje urządzenia do sterowania wielodostępem, czyli tzw. mostka wideokonferencyjnego MCU, które zajmuje się negocjowaniem pomiędzy terminalami standardów kodeków audio i wideo oraz obsługa strumienia danych multimedialnych. Typowa aplikacja MCU posiada od 4 do 48 portów, przy czym tylko część z nich wykorzystywana jest do realizacji przekazu multimedialnego (sygnałów dźwięku, obrazu i danych), pozostałe służą do zestawiania indywidualnych połączeń telefonicznych. Dodać należy, że mostek wideokonferencyjny MCU obligatoryjnie obsługiwać musi transmisję dźwięku (jest on do tego celu wyposażony w miksery dźwiękowe), natomiast transmisja obrazu (wymagająca dodatkowego wyposażenia mostka w przełącznice wizyjne) i danych są funkcjami opcjonalnymi. W MCU (MCS) funkcjonalnie rozróżnia się dwa bloki: MC (Multipoint Controller), odpowiedzialny za komunikację wielopunktową oraz MP, który zapewnia obsługę wspólnego transferu sygnałów audio, wideo oraz danych. NA podstawowe wyposażenie MCU składa się MC, bloki MP, w różnej liczbie, stanowią wyposażenie dodatkowe. MCU = MC ( + n MP) W funkcje MC może być opcjonalnie wyposażony terminal H.323. Standard H.323 zaleca używanie w terminalach wideotelefonicznych H.323 protokołu RTP (Real Time Protocol), zapewniającego transmisje w czasie rzeczywistym sygnałów audio i wideo, wymagane jest realizowane sprzętowo priorytetowanie ruchu H.323 w sieci pakietowej; -H. 324 umożliwia zestawianie połączeń wideotelefonicznych przez zwykłe, analogowe, komutowane linie telefoniczne SCN: Switched Circuit Network (za pośrednictwem modemu, gwarantującego przepływności 28.8 kbit/s i mniejsze - do 9,6 kbit/s). Aby umożliwić realizację wideokonferencji w warunkach tak małej dostępnej przepływności potrzebne były nowe standardy kompresji dźwięku (G.723.1, redukujący wymaganą dla audio prędkości transmisji do 5,3 / 5,3 kbit/s) oraz obrazu (H.263, zapewniające bardziej rozbudowane mechanizmy kompresji ruchu przy większym formacie obrazu, jakość uzyskiwana lepsza jest od jakości zapewnianej przez H.261 nawet dla większych przepływności).
Wszystkie z powyższych zaleceń nazywane są zaleceniami szkieletowymi, ponieważ w wielu zagadnieniach odwołują się do innych, powstałych wcześniej standardów. I tak np. sposób kodowania sygnału wizji oraz sygnału głosowego określane są poprzez podanie odpowiedniego zalecenia. Sygnały składowe W sygnale wideotelefonicznym wyróżnia się następujące sygnały składowe: Sygnały dźwiękowe (audio signals) tworzące ciągły strumień danych, wymagający transmisji w czasie rzeczywistym (można wprowadzić funkcję aktywacji głosowej (voice activation) celem zmniejszenia wymaganej przepływności sygnału). Sygnały wideo (video signals) generują ciągły strumień danych, dla którego zapewnić należy najwyższą możliwą prędkości transmisji dla uzyskania maksymalnej jakości, dostępnej przy danej przepływności kanału. Sygnały sterujące (control signals) obejmują informacje sterujące, przesyłane pomiędzy terminalem a siecią w kanale D. Kanał dla sygnalizacji pomiędzy dwoma terminalami udostępniany jest tylko w przypadku zaistnienia takiej potrzeby, według mechanizmu zgodnego z zaleceniem H.221, tj. w obrębie kanału BAS (Bit/rate Allocation Signal) lub w kanale serwisowym (service channel). Sygnały transmisji danych (data signals) czyli obrazy nieruchome, dokumenty, transmisje sygnału faksowego. Sygnały transmisji danych są sygnałami dodatkowymi, dlatego transmitowane mogą być tylko w ograniczonych przedziałach czasowych, zastępując całość lub część sygnału audiowizualnego. Transmisja danych poprzedzana jest negocjacją warunków transmisji pomiędzy terminalami, ponieważ jest to funkcja opcjonalna i wymaga dodatkowego wyposażenia terminala wideokonferencyjnego. Systemy kodowania sygnałów audio i wideo oraz inne zagadnienia techniczne typowe dla usług audiowizualnych znajdują się w innych rekomendacjach serii H.200/AV.200, tzw. zaleceniach uzupełniających. Zalecenia uzupełniające Różne
-H.211 - struktura ramki dla transmisji audiowizualnej dla kanałów 64kbit/s do 1920 kbit/s (łącza komutowane i dzierżawione); Kodowanie wideo
-H.261 - algorytmy kompresji obrazu CIF (Common Intermediate Format) oraz QCIF (Quarter CIF). Uwzględnienie standardu kodowania QCIF (zapewniającego rozdzielczość sygnału luminancji 144 linii 176 elementów oraz 72 linie 88 elementów dla każdego z sygnałów chrominancji) jest dla terminali wideokonferencyjnych obligatoryjne (strumień wejściowy kodera ma prędkość transmisji 9,1Mbit/s), natomiast standard CIF (rozdzielczość sygnału luminancji: 288 352, każdego ze składowych sygnałów chrominancji 144 176) jest opcjonalny (strumień wejściowy kodera o przepływności 36,5 Mbit/s); Kodowanie audio
Stosowane / zalecane metody kompresji dźwięku, stosowane w systemach wideotelefonicznych, generują ciągły strumień danych o stałej prędkości binarnej (CBR) i nie posiadają detektora ciszy.
Dodatkowo zdefiniowano rodzinę zaleceń T.120, obejmujących usługi dodatkowe w ramach telekonferencji, jak transport innych sygnałów (faks, dane), dostęp do aplikacji etc. Minimalnym zestawem zaleceń dla zapewnienia funkcjonowania terminala lub MCU, jest grupa zaleceń T.122 - T.125. Kodowanie sygnałów audio Terminal zgodny z normami ETSI powinien poprawnie odbierać sygnały kodowane G.711 (według prawa A oraz prawa ). Może się jednak zdarzyć, że realizowane jest kodowanie tylko według jednej z tych krzywych kompandorowania lub żadna (informacja ta zawarta jest w opcjach terminala (capability set)). Kodowanie sygnałów wideo Obowiązkowo wymagane jest kodowanie QCIF (Quarter Common Interchange Format), dodatkowo może być również zapewnione CIF (Common Interchange Format). Dla każdej metody kodowania QCIF oraz CIF podawana jest wartość minimalnego odstępu pomiędzy kolejnymi obrazami MPI (Minimum Picture Interval), gdzie MPI: 1 / 29.97s; 2 / 29,97 s; 3 / 29.97s; 4 / 29.97s. Przepływność
Podanie w deklaracji własności możliwości transmisji kanału o wyższej przepływności, np. 2 H0) implikuje zdolność do transmisji kanału o niższej przepływności, w przytoczonym przypadku 1H0. Analogicznie dla innych parametrów: spełnienie wymagania po prawej stronie znaku "<" gwarantuje spełnienie wymagania dla wszystkich wartości znajdującej się po lewej stronie tegoż znaku (prezentuje to zamieszczona poniżej tabela hierarchii deklaracji własności). Hierarchia deklaracji własności terminala (capabilities): G.711 ( z prawem A lub , lub obydwoma) < G.722 - 48 G.711 (z prawem A lub , lub obydwoma) < G.728 1B < 2B < 3B < 4B < 5B < 6B 1H0 < 2H0 < 3H0 < 4H0 < 5H0 QCIF < CIF 4 / 29,97 <... < 1 / 29,97 Zdolność do transmisji danych nie podlega szeregowaniu, tj. zapewnione są tylko deklarowane explicite opcje: Zalecenie H.323 Pierwsza wersja standardu H.323, nie gwarantująca jeszcze jakości transmisji pojawiła się w październiku 1996 roku. Koncentrowała się ona na funkcjach terminala wideotelefonicznego oraz wyposażeniu sieci LAN. Pojawienie się technologii "głosu po pakiecie" (Voice over IP, VoIP) wymusiło konieczność rewizji przyjętych założeń; powstałą np. konieczność zdefiniowania komunikacji pomiędzy aplikacją telefoniczną, zainstalowaną na PC a standardowym terminalem telefonicznym w sieci komutowanej. Powstała potrzeba standaryzacji telefonii IP. Druga wersja standardu H.323 powstała w styczniu 1998. Dodanie kolejnych funkcji, takich jak transmisja faksowa w pakietowej, komunikacja pomiędzy aplikacjami gatekeeperów oraz mechanizmów szybkich połączeń zapoczątkowały ewolucję w kierunku wersji trzeciej.
Jednym z celów powstania tego standardu było zapewnienie współpracy z innymi sieciami multimedialnymi (funkcje te spełnia gateway H.323) Wyróżnia się następujące typy topologii w połączeniach wideokonferencyjnych H.323 wielopunktowych: Zalecenie H.225 - Sygnalizacja rozmówna (H.323)
Opisywana zaleceniem H.225 sygnalizacja używana jest do zestawienia połączenia pomiędzy dwoma punktami końcowymi H.323, poprzez wymianę komunikatów protokołu H.225 w kanale sygnalizacji rozmównej. Rozróżnia się bezpośrednią sygnalizacją rozmówną (kiedy komunikaty wymieniane są bezpośrednio pomiędzy punktami końcowymi) oraz sygnalizacje rozmówną z routingiem przez gatekeepera, o wyborze metody decyduje gatekeeper w fazie wymiany komunikatów dostępu RAS. RTP
Używany w standardzie H.323 protokół RTP - wykorzystujący struktury zdefiniowane zaleceniem H.245 oraz IP - multicast - stosowany jest do zapewnienia funkcji multicastingowych (transmitowania treści do kilku wybranych punktów). Multicast - w przeciwieństwie do innych realizowanych w sieci IP usług: unicastu (transmisji punkt - punkt pomiędzy jednym nadawcą a jednym odbiorcą) oraz broadcastu (obejmującego wszystkie komputery w lokalnej podsieci w obrębie zadanej klasy adresowej A ,B lub C) - pozwala na adresowanie wybranych terminali w obrębie klasy adresowej D (ustawienie najbardziej znaczących bitów MSB = "1110"), co odpowiada adresom od 224.0.0.0 do 239.255.255.255. Adres multicastowy IP nie jest związany z konkretnym, fizycznym terminalem, a z daną sesją (nadawanym ciągiem pakietów), wybiera go (np. 231.254.12.187) nadawca informacji, poszczególni odbiorcy mogą dołączać się do definiowanej za pośrednictwem tego adresu grupy. Rutery do realizacji funkcji multicast wymagają programu rutingu multicastowego: mrouted; w ruterach bez funkcji multicastingu nie wywołują one reakcji. Pakiety multicastowe tunelowane są przez sieć pomiędzy ruterami multicastowymi, zakodowane jako unicast, tworzy się wirtualna sieć MBONE (Multicast Backbone). Wartość TTL zmniejszana jest tylko przez rutery multicastowe (mrouted); wartość TTL wymagana do przekroczenia tzw. punktów krytycznych - a więc granicy danej podsieci - jest stosunkowo wysoka: 32 dla sieci miejskiej, 64 dla regionalnej, 128 - dla kontynentalnej. |