Собственная информация

Рассмотрим дискретную случайную величину x с известным законом распределения, заданным рядом вероятностей, в котором каждому возможному значению случайной величины х₁, х₂, ..., х_m сопоставлена соответствующая вероятность p₁, p₂,…,p_m

Известно, что для характеристики тех или иных черт распределения случайной величины используются числовые характеристики, определённые как математические ожидания или усреднённые значения некоторых функций случайной величины. Если в качестве усредняемой функции выбрать логарифм вероятности возможного значения, то получим новую числовую характеристику случайной величины:

(1.4)

Эта числовая характеристика называется энтропией случайной величины x. Энтропия характеризует в среднем неопределённость случайной величины до испытания. Само слово происходит от греческих слов "en" и "trope", что означает "поворот", "превращение", " обращение".

В дискретной радиосвязи сообщение состоит из набора символов. Совокупность всех возможных символов образует алфавит. Примерами дискретных сообщений являются, например, слова русского текста, алфавит которого состоит из 32 букв. Каждое слово есть сообщение, состоящее из букв, являющихся в данном случае символами.

Если проанализировать тексты на русском языке, то можно заметить, что одни буквы появляются чаще, а другие реже. Используя статистическое определение вероятности, можно определить вероятность появления той или иной буквы. Например, в русском литературном тексте вероятности появления таких букв, как О, Е, А, соответственно равны: р_о = 0,11; р_e= 0,089; р_a=0,076. Это наиболее часто появляющиеся буквы. Редкими буквами являются Щ, Э, Ф. Их вероятности появления соответственно равны р_щ= 0,003; p_э= 0,002; р_ф= 0,002. Буква О появляется чаще, чем буква Ф, в 50 раз.

Рассмотрим дискретное сообщение в общем виде. Пусть алфавит состоит из m символов. Все символы алфавита х₁, x₂, ..., х_m, если их пронумеровать хотя бы мысленно, можно рассматривать как возможные значения дискретной случайной величины x, с известным рядом вероятностей.

Если считать, что появление 1-го символа, скажем х_i, полностью устраняет имеющуюся ранее неопределенность, то с появлением этого символа получатель получает следующее количество информации:

, (1.5)

где р_i -априорная вероятность появления символа х_i.

Поставим теперь вопрос: какое количество информации I получит в среднем получатель при появлении любого одного символа из алфавита m ? Для ответа на этот вопрос необходимо (1.5) усреднить по всем символам алфавита :

. (1.6)

Заметим, что формулы (1.4) и (1.6) полностью совпадают. Это означает, что энтропия определяет среднее количество информации, приходящейся на один символ алфавита дискретного сообщения:

. (1.7)

Наибольшая неопределённость дискретной случайной величины имеет место тогда, когда все её возможные значения равновероятны:

. (1.8)

Подставив значение (1.8) в формулу (1.7), получим

, (1.9)

то есть H_x_max зависит только от числа символов в алфавите.

Теперь найдём минимальную энтропию. Отсутствие неопределённости характеризуется тем, что вероятность одного из символов, скажем x₁, равна единице р₁ = 1, а вероятность всех остальных символов равна нулю: р₂=р₃=..,=р_m = 0. Подставив эти вероятности в формулу (1.7), получим

, (1.10)

где для удобства анализа член, содержащий вероятность р₁,отделён от суммы. При p₁= 1 логарифм равен нулю: log₁ = 0. Поэтому первый член в целом равен нулю.

При р_i = 0, i =2,3,..., m член, содержащий сумму, также будет равен нулю. Говоря более точно, каждый член суммы соответствует неопределённости типа “ ”, раскрыв которую, получим нуль.

Таким образом, минимально возможная энтропия равна нулю; Н_x_min = 0. Это означает, что энтропия является положительной величиной, заключённой в пределах

. (1.11)

Энтропия (1.7), характеризующая среднее количество информации, приходящейся на один символ алфавита, была получена в предположении, что появление любого символа алфавита полностью устраняет неопределённость (1.5). Поэтому информация, определяемая формулой (1.7), иногда называется собственной информацией источника сообщений, так как она определяет количество информации, приходящейся на один символ сообщения, без учета потерь в канале связи.

<35 36 373839 40 41 >

Дата добавления: 2016-01-26; просмотров: 1774;