Избыточность источников ДИС

Рассмотрим простейший статический источник знаковых («дискретных») сообщений (ДИС). Математически он представляется информационной моделью {U, P, I, S}, в которой U = {u_j} есть множество неравновероятных независимых элементарных сообщений. Согласно свойству аддитивности информации, количество информации, которое содержится в любой i-й последовательности знаков (в предложении или в тексте) S_i⁽ⁿ⁾ = ( u_i₁, u_i₂, …, u_ik, …, u_in ), выдаваемой источником ДИС, есть I(S_i⁽ⁿ⁾) = .

При достаточно большом значении n (n →∞) каждый из знаков u_j множества U = {u_j} будет встречаться в сообщении S_i⁽ⁿ⁾ много раз. Если n_i _j – количество знаков u_j, встретившихся в i-м сообщении (тексте) S_i⁽ⁿ⁾, то

I(S_i⁽ⁿ⁾) = .

Если правую часть последнего равенства умножить и разделить на n, то

приближённо(а при n → ∞ – точно) получим

n_i _j /n ≈ P_j и I(S_i⁽ⁿ⁾) = n /n ≈ n = – n ≡ n (U),

где (U) естьсреднее значение количества информации, содержащейся в произвольном знаке u U данного источника ДИС, или удельная информатив-

ность ДИС: (бит/знак).

Величину (U) К.Шеннон обозначил как H(U) и не очень удачно назвалэнтропией («неопределённостью») источника ДИС. Энтропия H(U) вычисляется по формуле:

(4.1)

и имеет размерность [H(U)] = бит/знак. К.Шеннон заимствовал термин «энтропия» из статистической механики американского физика-теоретика Дж.Гиббса (1839-1903) из-за аналогии формулы для вычисления энтропии S дискретной термодинамической системы и формулы (4.1), хотя энтропия S имеет иной вероятностный смысл и иную размерность (Джоуль/^оКельвин). Забвение происхождения и смысла формулы (4.1), а также лингвистическая двусмысленность термина «энтропия» привели к большой путанице в понятиях математической теории информации. Поэтому следует согласиться с замечанием (1962г.) сотрудника по Белловским лабораториям и последователя Шеннона (см. разд.1) Дж.Пирса ([24], с.99): «Чтобы понять, что такое энтропия в теории информации, лучше выкинуть из головы всё, что хоть как-то связано с понятием энтропия, применяемым в физике». Поэтому лучше всего величину называть удельной информативностью.

Итак,

удельная информативность

(U), или энтропия H(U) источника знаковых («дискретных») сообщений количественнохарактеризует математическую модель источника ДИС {U, P, I, S} на синтактическом уровне семиотики. По величине

(U) ≡ H(U) можнообъективносравнивать «информационные мощности» различных источников ДИС и очень просто оценивать количество информации I(S_i⁽ⁿ⁾), содержащейся в любом достаточно длинном сообщении S_i⁽ⁿ⁾: I(S_i⁽ⁿ⁾) ≈ n

(U) ≡ nH(U).

Можно определить также и дисперсию информативности знаков D(U)данного источника ДИС («дисперсию энтропии»). Мы имеем

или .

Однако в математической теории информации величина D(U) не получила полезной интерпретации и соответствующего применения, хотя с её помощью в прикладной теории информации можно приближённо оценивать вероятности поступления в подсистему ПСППС сообщений S_i⁽ⁿ⁾, имеющих очень большую информативность I(S_i⁽ⁿ⁾).

Рассмотрим такие источники ДИС {U, P, I, S}, у которых U= {u₁, u₂}, P= {P₁, P₂}, то есть бинарные источники ДИС. Для этого введём обозначение: P = P₁. При таком обозначении:

P₂ = 1 – P, и (U) ≡ H(U) = H(P) = – P log P – (1 – P) log(1 – P) = H(P) ≡ (P).

Вид функции H(U) ≡ (U) при N = 2 показан на рис.3. В окрестности точек P = 0 и P = 1 математическая неопределённость функции (P) ≡ H(P) раскрывается по правилу Лопиталя:

и (4.2)

Напротив, при P = 0,5 функция (P) ≡ H(P) достигает максимума, равного _макс ≡ H_макс = – log (1/2) = 1 (бит/знак). Такой источник дискретной информации ДИС (например – подбрасывание идеальной монеты) может служитьэталономдля измерения удельной информативности (энтропии) любых других источников ДИС, а не только бинарных. Можно создать эталон для десятичной единицы источников дискретных сообщений (например: подбрасывание икосаэдра с дублированным обозначением двадцати его граней цифрами от 0 до 9). Для натуральной единицы – нельзя, так как этот эталон подразумевает источник ДИС с e ≈ 2,718 равновероятными элементарными сообщениями; так что «наты» являются формально-математической конструкцией.

При N > 2 максимальной энтропией H_макс обладает, как и при N = 2, источник ДИС, у которого все элементарные сообщения (знаки) равновероятны: P₁ = P₂ = … = P_N = P₀, где P₀ = 1/N.

В этом случае: ≡ H_макс= – = – log = log N (бит/знак).

Это – не что иное, как информационная мера Хартли (см. разд.1).

бит

знак

0,5

0 0,5 1 P

Рис. 3. Зависимость удельной информативности (энтропии H)

бинарного источника ДИС от априорной вероятности P знака “единица”

Значит, если у источника ДИСкакой-либо знак u_j U имеет вероятность P_j = 1, то все остальные обязательно имеют нулевую вероятность (это следует из условия = 1), и H(U) = 0. Если все знаки u_j ( j = 1, 2, …, N) – равновероятны, то (U) ≡ H(U) = H_макс = log N. Между этими двумя крайними случаями (H_мин = 0 и H_макс = log N) лежат значения удельной информативности (энтропии) всех источников ДИСс алфавитом из N знаков: 0 ≤ { (U) ≡ H(U)} ≤ log N.

Величина ΔI = log N – H(U) называетсяинформационной избыточностью ДИС, а безразмерная величина

η(U) = ΔI/H_макс = [log N – H(U)]/log N = 1 – H(U)/log N ≡ 1 – (U)/log N

называется коэффициентом избыточности данного источникаДИС; его величина лежит в промежутке [0 ≤ η(U) ≤ 1]. Величина η(U) показывает, в какой мере, при том же количестве знаков N множества U= {u_j} (алфавита U), источник ДИС мог бы производить больше среднего количества информации на один знак, чем это делает данный источник ДИС. Или – то же количество информации можно было бы производить с помощью меньшего количества знаков. Если же «физическая реализация любого знака» u_j из совокупности U занимает на носителе запоминающего устройства (на бумаге или в ПЗУ) один и тот же объём памяти (ПЗУ) или же площадь на листе печатного текста, то величина η(U) показывает, во сколько раз меньший объём памяти (или площади листа текста) нужно было бы иметь для хранения данного количества информации, если бы знаки {u_j} в различных сообщениях встречались равновероятно (и независимо). Это – первый практический результат наших теоретических построений. Из него следует, что

перед записью сообщения S_i⁽ⁿ⁾ в ОЗУ или ПЗУ его следует «тождественно» (то есть без потери синтактической информации) преобразовать (закодировать) так, чтобы сообщение S_i⁽ⁿ⁾ занимало на носителе ОЗУ или ПЗУ минимальный объём памяти.

Вопросы для самопроверки

1. Как измеряется количество информации, которое содержится в длинных последовательностях элементарных сообщений, выдаваемых источником знаковых (дискретных) сообщений?

2. Что такое удельная информативность (энтропия) источника знаковых (дискретных) сообщений?

3. Каков вид зависимости удельной информативности (энтропии) бинарного источника дискретных сообщений от априорной вероятности одного из элементарных сообщений?

4. Что такое коэффициент избыточности источника дискретных сообщений и в чём состоит его математический и практический смысл?

5. Каково назначение кодера источника дискретных сообщений?

<2 3 456 7 8 >

Дата добавления: 2015-05-16; просмотров: 969;