gdzie I(X;Y) to tzw. informacja wzajemna (mutual information) między zmiennymi X i Y, zaś maksymalizacja jest realizowana względem wszystkich możliwych rozkładów statystycznych opisujących sygnał nadawany. Informacja wzajemna jest miarą ilości informacji, którą zawiera jedna zmienna na temat innej zmiennej. Innymi słowy, wartość ta opisuje, o ile zmniejsza się niepewność na temat danej zmiennej w oparciu o wiedzę na temat drugiej zmiennej. W związku z tym, inny matematyczny sposób zdefiniowania informacji wzajemnej jest następujący:
(12)
I(X;Y) = H(Y)-H(Y \ X),
gdzie H(Y|X) to warunkowa entropia między zmiennymi X i Y.
Oczywiście klasyczną formułą opisującą pojemność kanału w systemie transmisyjnym (bez rozróżniania między systemami SISO czy MIMO) jest doskonale znane twierdzenie Shannona [8], zgodnie z którym w łączu o znanej szerokości pasma (B [Hz]), przy założeniu, że moc sygnału jest ograniczona oraz występujący szum gaussowski opisywany jest przez znaną moc lub widmową gęstość mocy, maksymalna szybkość, przy której można uzyskać dowolnie małe prawdopodobieństwo błędu, czyli pojemność kanału C [bit/s] jest zdefiniowana następująco:
(13)
C = filog,(l + />),
gdzie p oznacza stosunek mocy sygnału do mocy szumu, wyrażony w tym wypadku w skali liniowej.
Przez analogię, dla kanału SISO opisywanego przez swoją odpowiedź impulsową h, pojemność można zdefiniować następująco [9,10]:
(14)
Powyższy wzór określa pojemność dla przypadku deterministycznego, tzn. dla konkretnej ściśle określonej realizacji kanału, którą utożsamia konkretna wartość odpowiedzi impulsowej h. W praktyce dużo częściej posługujemy się pojęciem pojemności średniej lub ergodycznej (ergodic capacity), która jak sama nazwa wskazuje stanowi wartość pojemności uśrednionej względem wszystkich możliwych realizacji kanału radiowego, tj.:
gdzie E( •) oznacza wartość średnią (nadzieję matematyczną).
Z kolei pojemność kanału SIMO dla przypadku deterministycznego można przedstawić następująco [9,10]: