Собственная информация
Рассмотрим дискретную случайную величину x с известным законом распределения, заданным рядом вероятностей, в котором каждому возможному значению случайной величины х1, х2, ..., хm сопоставлена соответствующая вероятность p1, p2,…,pm
Известно, что для характеристики тех или иных черт распределения случайной величины используются числовые характеристики, определённые как математические ожидания или усреднённые значения некоторых функций случайной величины. Если в качестве усредняемой функции выбрать логарифм вероятности возможного значения, то получим новую числовую характеристику случайной величины:
(1.4)
Эта числовая характеристика называется энтропией случайной величины x. Энтропия характеризует в среднем неопределённость случайной величины до испытания. Само слово происходит от греческих слов "en" и "trope", что означает "поворот", "превращение", " обращение".
В дискретной радиосвязи сообщение состоит из набора символов. Совокупность всех возможных символов образует алфавит. Примерами дискретных сообщений являются, например, слова русского текста, алфавит которого состоит из 32 букв. Каждое слово есть сообщение, состоящее из букв, являющихся в данном случае символами.
Если проанализировать тексты на русском языке, то можно заметить, что одни буквы появляются чаще, а другие реже. Используя статистическое определение вероятности, можно определить вероятность появления той или иной буквы. Например, в русском литературном тексте вероятности появления таких букв, как О, Е, А, соответственно равны: ро = 0,11; рe= 0,089; рa=0,076. Это наиболее часто появляющиеся буквы. Редкими буквами являются Щ, Э, Ф. Их вероятности появления соответственно равны рщ= 0,003; pэ= 0,002; рф= 0,002. Буква О появляется чаще, чем буква Ф, в 50 раз.
Рассмотрим дискретное сообщение в общем виде. Пусть алфавит состоит из m символов. Все символы алфавита х1, x2, ..., хm, если их пронумеровать хотя бы мысленно, можно рассматривать как возможные значения дискретной случайной величины x, с известным рядом вероятностей.
Если считать, что появление 1-го символа, скажем хi, полностью устраняет имеющуюся ранее неопределенность, то с появлением этого символа получатель получает следующее количество информации:
, (1.5)
где рi -априорная вероятность появления символа хi.
Поставим теперь вопрос: какое количество информации I получит в среднем получатель при появлении любого одного символа из алфавита m ? Для ответа на этот вопрос необходимо (1.5) усреднить по всем символам алфавита :
. (1.6)
Заметим, что формулы (1.4) и (1.6) полностью совпадают. Это означает, что энтропия определяет среднее количество информации, приходящейся на один символ алфавита дискретного сообщения:
. (1.7)
Наибольшая неопределённость дискретной случайной величины имеет место тогда, когда все её возможные значения равновероятны:
. (1.8)
Подставив значение (1.8) в формулу (1.7), получим
, (1.9)
то есть Hxmax зависит только от числа символов в алфавите.
Теперь найдём минимальную энтропию. Отсутствие неопределённости характеризуется тем, что вероятность одного из символов, скажем x1, равна единице р1 = 1, а вероятность всех остальных символов равна нулю: р2=р3=..,=рm = 0. Подставив эти вероятности в формулу (1.7), получим
, (1.10)
где для удобства анализа член, содержащий вероятность р1,отделён от суммы. При p1= 1 логарифм равен нулю: log1 = 0. Поэтому первый член в целом равен нулю.
При рi = 0, i =2,3,..., m член, содержащий сумму, также будет равен нулю. Говоря более точно, каждый член суммы соответствует неопределённости типа “ ”, раскрыв которую, получим нуль.
Таким образом, минимально возможная энтропия равна нулю; Нxmin = 0. Это означает, что энтропия является положительной величиной, заключённой в пределах
. (1.11)
Энтропия (1.7), характеризующая среднее количество информации, приходящейся на один символ алфавита, была получена в предположении, что появление любого символа алфавита полностью устраняет неопределённость (1.5). Поэтому информация, определяемая формулой (1.7), иногда называется собственной информацией источника сообщений, так как она определяет количество информации, приходящейся на один символ сообщения, без учета потерь в канале связи.
Дата добавления: 2016-01-26; просмотров: 1764;