Kanał informacyjny
Wprowadzenie
W dalszej części wykładu przesuniemy obszar naszych rozważań ze źródła wiadomości na kanał informacyjny, tj. z procesu wytwarzania informacji na proces jej przekazywania.
Koncepcja kanału informacyjnego, którą wprowadzimy dalej, zakłada, że w procesie przekazywania informacji możliwe jest powstawania błędów. Interesować nas będzie wpływ tych błędów na możliwości przekazywania informacji, co w efekcie doprowadzi nas do koncepcji kodowania minimalizującego efekty błędów wprowadzonych przez kanał.
Kanał informacyjny posiada bezpośrednią interpretację w telekomunikacji. Rozpatruje się tam teoretyczne i techniczne problemy przekazywania wiadomości w tzw. kanałach komunikacyjnych, zwanych również kanałami kodowymi. W kanale komunikacyjnym realizowanych jest szereg procesów, które zapewniają połączenie między nadawcą (źródłem wiadomości) a odbiorcą. Do najważniejszych należą:
kodowanie wiadomości,
modulacja (wypełnienie sygnałem nośnym),
transmisja (jednokrotna lub wielokrotna), podczas której realizowane jest cykl: wzmocnienie, emisja, odbiór, usuwanie zniekształceń,
demodulacja,
dekodowanie.
W teorii informacji rozpatrujemy prostszy i bardziej ogólny model kanału. Przyjmujemy mianowicie, że źródło wiadomości W={w1,w2, …, wn} generuje wiadomości z prawdopodobieństwami p1, p2, …, pn, które następnie przekazywane są za pośrednictwem kanału informacyjnego do odbiornika. Odbiornik reaguje na każdą otrzymaną wiadomość przyporządkowując jej wiadomości ze zbioru Z={z1, z2, …, zm}.
Formalnie przyjmujemy, że kanał informacyjny jest określony, jeśli znane są:
Zbiór wiadomości W={w1,w2, …, wn}, p1, p2, …, pn,
Zbiór wiadomości Z={z1, z2, …, zm},
Prawdopodobieństwa warunkowe: p(zjwi), i, 1, 2, …, n, j = 1, 2, …, m.
Prawdopodobieństwa warunkowe można przedstawić w postaci macierzy:
Macierz P nazywamy macierzą kanału, jeżeli pominiemy oznaczenia wiadomości elementarnych ze zbioru W i Z, to wystarczającą reprezentacją kanału jest macierz P.
Zauważmy, że tak zdefiniowany kanał jest modelem umożliwiającym opis różnorodnych procesów:
Zapamiętywania,
Odczytu (odtwarzania),
Przesyłania.
Procesy te mogą występować w organizmach żywych, w obrębie społeczności (nie tylko ludzkich), z wykorzystaniem urządzeń technicznych lub nie. W szczególności kanał informacyjny może służyć do opisu i analizy procesu przekazywania wiadomości zarówno przed, jak i po ich zakodowaniu. Musi być przy tym spełniony następujący postulat: konsekwencją nadania wiadomości ze zbioru W jest odbiór dokładnie jednej wiadomości ze zbioru Z. Z tego wynika, że:
Przykład:
a)
b)
2. Rodzaje kanałów informacyjnych
Niekiedy (dla mało skomplikowanych kanałów) wygodnym sposobem opisu kanału jest postać graficzna.
Przykład:
Opierając się na powyższej konwencji można zdefiniować trzy rodzaje kanałów informacyjnych:
Kanał idealny:
Kanał odwracalny:
Kanał deterministyczny:
Kanał binarny:
Uwaga: Niektórzy autorzy nie wyróżniają kanału odwracalnego. Kanał odwracalny jest kanałem traktowany jako kanał idealny, jeśli wystarczającym warunkiem jest możliwość jednoznacznego stwierdzenia, która wiadomość została nadana.
3. Parametry charakteryzujące kanał informacyjny
Prawdopodobieństwo odebrania wiadomości zj obliczamy ze wzoru:
Macierz kanału pozwala określić prawdopodobieństwo odebrania dowolnej wiadomości ze zbioru Z pod warunkiem nadania dowolnej wiadomości ze zbioru W.
Z punktu widzenia odbiorcy ważniejsze jest określenie prawdopodobieństwa nadania wiadomości ze zbioru W pod warunkiem odebrania wiadomości ze zbioru Z, istotna jest zatem znajomość prawdopodobieństwa p(wizj).
Ponieważ:
Zatem prawdopodobieństwo p(wizj) można wyznaczyć na podstawie macierzy kanału. Prawdopodobieństwa te tworzą macierz kanału odwrotnego:
Mając daną macierz kanału odwrotnego, możemy obliczyć ilość informacji zawartą w wiadomości wi pod warunkiem odebrania wiadomości zj:
Średnią ilość informacji zawartą w wiadomości ze zbioru W pod warunkiem odebrania wiadomości zj obliczamy ze wzoru:
Znając prawdopodobieństwa odebrania każdej wiadomości zj, możemy obliczyć średnią ilość informacji zawartej w wiadomości ze zbioru W pod warunkiem odebrania wiadomości ze zbioru Z:
Entropię kanału odwrotnego H(WZ) nazywamy stratą informacji w kanale. W kanałach idealnym i odwracalnym strata informacji jest równa zero. Inaczej mówiąc nieokreśloność takich kanałów jest równa zero, ponieważ odbierając określoną wiadomość dokładnie wiadomo, jaka wiadomość została nadana.
Ponieważ wiemy, że kanał informacyjny może powodować straty informacji i straty te możemy wyliczyć, to możemy również wyznaczyć ilość informacji przenoszonej przez kanał:
Ponieważ
, to
Z zależności:
wynika, że:
Po podstawieniu otrzymujemy:
Ilość informacji przekazywanej przez kanał i przez kanał odwrotny jest więc identyczna. Dla kanału odwróconego możemy, analogicznie jak dla kanału informacyjnego, obliczyć stratę informacji H(ZW) i pokazać, że I(W,Z) = H(W) - H(WZ).
Zależności występujące w kanale informacyjnym wygodnie jest zilustrować na rysunkach:
Rysunek 1. Zależności między parametrami charakteryzującymi kanał informacyjny
Rysunek 2. Zależności w kanale informacyjnym
Reguły decyzyjne
Reguła decyzyjna jest podstawowym pojęciem w teorii podejmowania decyzji. W teorii informacji reguły decyzyjne określają sposób postępowania zmierzający do ustalenia jaka wiadomość została nadana w przypadku, gdy na wyjściu odebrano określoną wiadomość.
Formalnie więc regułą decyzyjną nazywamy dowolne odwzorowanie ze zbioru Z w zbiór W. Zwykle przedstawia się ją w postaci tabeli, np.
Wiadomość odebrana |
Wiadomość nadana |
z1 |
w2 |
z2 |
w2 |
z3 |
w1 |
z4 |
w3 |
z5 |
w1 |
Powyższy zapis można skrócić łącząc wiadomości odebrane w zbiory, np.
Wiadomość odebrana |
Wiadomość nadana |
{z1, z2} |
w2 |
{z3,z5} |
w1 |
z4 |
w3 |
Na ogół podjęcie decyzji o tym, jaką wiadomość nadano nie jest sprawą trywialną. Rozważmy następujący przykład:
W = {w1, w2, w3}, p1=0,7; p2 = 0,1; p3 = 0,2; Z = {z1, z2, z3}
Jeżeli na wyjściu kanału otrzymamy wiadomość z3, to określenie, która wiadomość została nadana jest bardzo trudne. Właściwie nie istnieje sposób, który pozwoli na jej jednoznaczne określenie. Ogólnie należałoby przyjąć, że podejmujemy decyzję minimalizując błąd pomyłki.
Niech w* oznacza wiadomość, którą uznajemy za nadaną po otrzymaniu wiadomości zj. Wówczas prawdopodobieństwo tego, że przy podejmowaniu decyzji popełniliśmy błąd (tzw. prawdopodobieństwo błędu decyzji) wynosi:
Natomiast średnie prawdopodobieństwo błędu decyzji obliczamy z zależności:
Najlepszą reguła decyzyjną będzie taka reguła, dla której średni błąd decyzji będzie najmniejszy. Jak łatwo zauważyć taka sytuacja zajdzie wtedy, gdy każdy ze składników sumy będzie minimalny. Aby to uzyskać należy ustalić takie w*, że:
Powyższa zasad nosi nazwę reguły największego prawdopodobieństwa. Aby móc stosować tę regułę, należy znać macierz kanału odwrotnego P(-1). Wprawdzie można tę macierz wyznaczyć na podstawie macierzy kanału P, ale dodatkowo należy mieć dobrze określone źródło wiadomości, tj. znać prawdopodobieństwa p(w1), …, p(wn), na podstawie których wyznacza się prawdopodobieństwa warunkowe występujące w P(-1).
Jeśli nie znamy prawdopodobieństw wygenerowania poszczególnych wiadomości przez źródło W, to jedynym rozsądnym wyjściem jest przyjęcie założenia, iż p(w1)=p(w2)=…=p(wn). Wówczas reguła:
Sprowadza się do:
Reguła ta nosi nazwę reguły największej wiarygodności.
Można nie przyjmować założenia o równości prawdopodobieństw, ale bez przyjęcia jakiegokolwiek założenia odnośnie rozkładu p(wi) nie ma podstaw do wyznaczenia reguły. Inne, najczęściej spotykane założenia przyjmują:
p1>p2>….>pn, albo p1=p2=…=pi, pi+1=pi+2=…=pn.
Straty i ryzyko
W rzeczywistych systemach technicznych, a także w innych zastosowaniach modelu, jakim jest kanał informacyjny, najczęściej konieczne jest uwzględnieni strat, które są następstwem podjęcia błędnej decyzji.
Niech R(wi, w*) będzie funkcją, której wartość określa stratę poniesioną w sytuacji, gdy nadano wiadomość wi, a w wyniku zastosowania reguły decyzyjnej r przyjęto, że nadano w*. Strata ta może być mierzona w konkretnych jednostkach, np. w PLN, sekundach, metrach itp. Albo w jednostkach niemianowanych.
Funkcję R(wi, w*) nazywamy funkcją strat związaną z reguła decyzyjną r. Przykłady funkcji strat:
dla wiadomości binarnych:
R1(w1, w1)= R1(w2, w2)=0; R1(w1, w2)= R1(w2, w1)=1
w ogólnym przypadku
gdy wiadomości są liczbami:
Funkcja strat pozwala ocenić skutki danej reguły decyzyjnej. Pojawia się więc kluczowe pytanie, w jaki sposób określić regułę, by straty były minimalne. Do tego celu potrzebne jest kryterium oceny reguły decyzyjnej. Rolę takiego kryterium pełni tzw. ryzyko.
Zadanie sprowadza się teraz do takiego wyboru reguły decyzyjnej r, aby średnia strata (ryzyko) była minimalna. W ogólnym przypadku jest to problem bardzo złożony. Najczęściej rozwiązuje się go metodami przybliżonymi.
Przykład:
Dla kanału określonego macierzą
,
w którym W={10, 20}, p1=0,6; p2=0,4; Z={10, 10, 20}, przyjęto funkcję strat postaci:
R(wi, w*) = wi - w*. Obliczyć średnie ryzyko podjęcia błędnej decyzji.
Rozwiązanie:
Wyznaczamy regułę decyzyjną (regułę największego prawdopodobieństwa).
- obliczamy prawdopodobieństwa odebrania każdej z wiadomości ze zbioru Z:
- wyznaczamy macierz kanału odwróconego:
Pozostałe prawdopodobieństwa warunkowe wyliczamy z zależności, która mówi, że suma prawdopodobieństwa w wierszach macierzy kanału odwrotnego musi być równa 1. W rezultacie macierz kanału odwróconego ma postać:
Reguła największego prawdopodobieństwa dla kanału przedstawia się następująco:
wiadomość odebrana |
wiadomość nadana |
{z1, z3} |
w1 |
z2 |
w2 |
Obliczamy ryzyko podjęcia błędnej decyzji:
9