Matematyka Dyskretna Zbigniew DomaÅ„ski Instytut Matematyki i Informatyki, Politechnika CzÄ™stochowska Elementy teorii informacji. Wprowadzenie. Teoria informacji wykorzystuje jÄ™zyk i metody rachunku prawdopodobieÅ„stwa oraz statystyki matematycznej do opisu transferu (transportu) informacji. 0 0 0 Przypiszmy każdemu zdarzeniu x1, x2, , xn prawdopodobieÅ„stwo p1 , p2 , , pn jego wystÄ…pienia: P0 (xi ) = pi0 , i = 1,2, , n. Np. przy rzucaniu kostkÄ…, prawdopodobieÅ„stwo wyrzucenia i-tu oczek (i=1,2,& ,6) może być przyjÄ™te jako p=1/6. Przypuśćmy, że kostka nie jest rzetelna i ktoÅ› nas informuje, że liczby 3 i 6 pojawiajÄ… siÄ™ dwa razy częściej niż pozostaÅ‚e liczby. Wtedy: p3 = p6 = 1/ 4, oraz p1 = p2 = p4 = p5 = 1/ 8. W powyższym przypadku uzyskaliÅ›my bezspornie informacjÄ™, którÄ… chcemy zmierzyć iloÅ›ciowo. Szukamy wielkoÅ›ci: 0 0 0 I (P, P0 ) = I ( p1, p2, , pn ; p1 , p2 , , pn ) pozwalajÄ…cej nam iloÅ›ciowo okreÅ›lić zysk informacji. 1 Postulat Laplace a: dwa zdarzenia należy traktować jako jednakowo prawdopodobne jeÅ›li nie mamy podstaw sÄ…dzić, że jest inaczej. Taki wybór rozkÅ‚adu prawdopodobieÅ„stwa jest równie arbitralny jak inne możliwe. Przypuśćmy, że znamy wartoÅ›ci liczbowe jakie mogÄ… wystÄ…pić w serii realizacji pewnego doÅ›wiadczenia. Niech te liczby bÄ™dÄ… równe: x1, x2, , xn . Nie znamy jednak prawdopodobieÅ„stw ich wystÄ™powania. Jednak w trakcie obserwacji możemy okreÅ›lić pewne charakterystyki liczbowe jak np. wartość przeciÄ™tnÄ… i=6 X = pi xi " i=1 PrzykÅ‚ad. W rzucie nierzetelnÄ… kostkÄ… może to być np. i=6 i = Å" pi = 4,5 "i i=1 (dla kostki rzetelnej pi = 1/ 6, i = 3,5 ). Jaki jest rozkÅ‚ad {pi} dla tej kostki? Na przykÅ‚ad taki: p1 p2 P3 P4 P5 p6 0 0 0 0.5 0.5 0 Zasada Jaynes a: najbardziej rozsÄ…dny rozkÅ‚ad prawdopodobieÅ„stwa to taki, który maksymalizuje funkcjÄ™ zwanÄ… funkcjÄ… nieokreÅ›lonoÅ›ci informacji ze wzglÄ™du na wszystkie możliwe rozkÅ‚ady prawdopodobieÅ„stwa P zgodne z obserwowanymi danymi. Poniżej wyprowadzimy postać tej funkcji. NieokreÅ›loność (nieoznaczoność) informacji. Niech X = {x1, x2 , , xn} bÄ™dzie zmiennÄ… losowÄ…, zaÅ› P = {p1, p2 , , pn} jest rozkÅ‚adem prawdopodobieÅ„stwa tej zmiennej losowej. Pmax reprezentuje maksimum informacji jakie można posiadać o wartoÅ›ciach {x1, x2 , , xn}. 2 PrzykÅ‚ad: 1 1 1 Å„Å‚ üÅ‚ P0 = , , , Pmax = {0,0, ,1k , ,0}- pewność. òÅ‚ żł, ółn n nþÅ‚ Symbol 1k oznacza, że na pozycji k jest 1. Wprowadzimy funkcjÄ™ bÄ™dÄ…cÄ… miarÄ… wzrostu informacji. Niech I(P, P0 ) = miara wzrostu informacji zawartej w P wzglÄ™dem P0. JeÅ›li aktualny stan wiadomoÅ›ci jest opisany przez P to brakujÄ…ca informacja, tj. nieokreÅ›loność informacji definiujemy jako: U (P, Pmax , P0 ) = I(Pmax , P0 ) - I (Pmax , P) Minimalne wymagania nakÅ‚adane na funkcjÄ™ U: 1) U jest funkcjÄ… ciÄ…gÅ‚Ä… prawdopodobieÅ„stw {p1, p2 , , pn}, 2) JeÅ›li w wyniku pierwszego eksperymentu prawdopodobieÅ„stwa sÄ… równe zero poczÄ…wszy od pewnego n1 < n oraz sÄ… jednakowe dla i < n1 tj.: Å„Å‚ üÅ‚ 1 1 1 P1 = , , , ,0, ,0żł, òÅ‚ ółn1 n1 n1 þÅ‚ a wedÅ‚ug drugiego eksperymentu Å„Å‚ üÅ‚ 1 1 1 1 P2 = , , , , , ,0, ,0żł, òÅ‚ ółn 2 n2 n2 n2 þÅ‚ gdzie n2 > n1 to U jest funkcjÄ… rosnÄ…cÄ… n: U (P2 , Pmax , P0 ) > U (P1, Pmax , P0 ) . 3 3) NieokreÅ›loność zdarzenia Å‚Ä…cznego jest sumÄ… niepewnoÅ›ci zdarzeÅ„ skÅ‚adowych. Wymagamy aby niepewność dwu zdarzeÅ„ niezależnych skÅ‚adajÄ…cych siÄ™ na zdarzenie Å‚Ä…czne byÅ‚a sumÄ… niepewnoÅ›ci: I(P1P2 , P10P20 ) = I(P1, P10 ) + I(P2 , P20 ) . Warunek ten zapisany dla funkcji U daje zależność: U (P1P2 , P1max P2max , P10P20 ) = U (P1, P1max , P10 ) +U (P2, P2max , P20 ) W ramach teorii funkcji pokazuje siÄ™, że funkcja speÅ‚niajÄ…ca warunki 1)-3) ma postać (zarówno funkcja U jaki i funkcja I ): n ëÅ‚ öÅ‚ pi ìÅ‚ ÷Å‚ I (P, P0 ) = k pi lnìÅ‚ ÷Å‚, k - staÅ‚a. " pi0 i=1 íÅ‚ Å‚Å‚ JeÅ›li przyjmiemy, że naszej sytuacji poczÄ…tkowej odpowiada rozkÅ‚ad: 1 1 1 1 Å„Å‚ üÅ‚ P0 = , , , pi0 = . òÅ‚ żł, n ółn n nþÅ‚ zaÅ› peÅ‚nej informacji odpowiada rozkÅ‚ad: Pmax = {0,0, ,1l ,0, ,0}, pimax = ´il , l - ustalone to 1 I (P, P0 ) = k pi (ln pi - ln pi0 ) =k pi ln pi - k( pi )ln " " " n i i i = k pi ln pi - k Å"1Å" ln n-1 = k pi ln pi + k ln n. " " i i oraz I (Pmax , P0 ) = k pimax ln pi + k ln n =0 + k ln n . " i`"l 4 Ostatecznie, funkcja nieokreÅ›lonoÅ›ci dla zadanych powyżej funkcji rozkÅ‚adu P oraz P0 ma postać: n ëÅ‚ öÅ‚ pi ìÅ‚ ÷Å‚ U (P; Pmax , P0 ) = -k pi lnìÅ‚ ÷Å‚, " pi0 i=1 íÅ‚ Å‚Å‚ FunkcjÄ™ nieokreÅ›lonoÅ›ci informacji U czÄ™sto nazywamy entropiÄ… informacji. 1 PrzyjmujÄ…c jako staÅ‚Ä… k = oraz wykorzystujÄ…c wÅ‚asność funkcji logarytmicznej ln 2 ln x / ln 2 = log2 x mamy nastÄ™pujÄ…cÄ… postać funkcji entropii informacji: S = - pi log2 pi. " i WprowadziliÅ›my tu symbol S stosowany czÄ™sto dla oznaczenia entropii. Powyższa postać funkcji entropii zostaÅ‚a podana koÅ„cem lat 40-tych przez Shanon a. PrzykÅ‚ad. Zmienna losowa X = {0,1} ma rozkÅ‚ad prawdopodobieÅ„stwa P = {p,1- p}, gdzie wartość 0 < p d" 1. Dla tej zmiennej funkcja entropii wynosi: S(X ) = - p log2 p - (1- p)log2 (1- p) = S( p). S(1/ 2) = 1bit. S(p) 1 p 0 Na podstawie diagramu widzimy, że 0 0.5 1 entropia jest minimalna (równa 0!) dla p=0 lub p=1 czyli w sytuacjach gdy mamy pewność (!) co do wartoÅ›ci przyjÄ™tej przez zmiennÄ… losowÄ…. 5 PrzykÅ‚ad. a , p = 1/ 2, Å„Å‚ ôÅ‚b , p = 1/ 4, ôÅ‚ X = S(X ) = 7 / 4bits . òÅ‚ ôÅ‚c , p = 1/ 8, ôÅ‚d , p = 1/ 8. ół JeÅ›li w tym przykÅ‚adzie chcielibyÅ›my okreÅ›lić jakÄ… wartość przyjęła zmienna losowa X to musimy zadać seriÄ™ pytaÅ„: Pytanie Odpowiedz DziaÅ‚anie TAK KONIEC 1 X = a? NIE Dalej TAK KONIEC 2 X = b? NIE Dalej 3 X = c? KONIEC PrzeciÄ™tnie musimy pytać okoÅ‚o S(X) razy. Twierdzenie. Minimalna liczba pytaÅ„ koniecznych do okreÅ›lenia stanu zmiennej losowej jest zawarta pomiÄ™dzy S(X) a S(X)+1. Istnieje zwiÄ…zek pomiÄ™dzy entropiÄ… informacji a efektywnoÅ›ciÄ… kodu. ZwiÄ…zek ten bÄ™dziemy analizować w dalszej części naszego kursu. 6