Информационная мера Шеннона

Возвратимся к рис.1 и рассмотрим функционирование частного случая системы передачи сообщений, состоящей из субъекта – источника языковых (знаковых) сообщений ДИС (источник дискретных сообщений), входного преобразователя 1, который представляет собой печатную машинку или клавиатуру ПК, и ПЗУ, которое представляет собой лист бумаги или ПЗУ ПК. То есть предположим, что субъект-ДИС набирает текст некоторого сообщения, не сте-снённый какими-либо ограничениями по времени набора.

Уточним терминологию и аббревиатуру. По существу, если субъект-ИС вводит в подсистему ПСППС знаковое сообщение, то его следует называть источником знаковых сообщений (ИЗС). Однако в математической теории информации (по инициативе К.Шеннона) установилась традиция называть такие источники дискретными источниками сообщений (ДИС: [46], с.249). Поэтому, не нарушая традиции, источники ИЗС в дальнейшем мы будем обозначать как ДИС, но называть источниками дискретных (то есть знаковых) сообщений.

Обычно текст состоит из ряда предложений, которые представляют собой некоторые последовательности S_i⁽ⁿ⁾ = (u_i₁, u_i₂, …, u_ik, …, u_in) знаков (первичных символов) из множества {u_j} = U – алфавита знаковой системы. Здесь n – длина (количество знаков) i-го сообщения S_i⁽ⁿ⁾. При этом на k-м месте последовательности S_i⁽ⁿ⁾ знак u_j может появиться с вероятностью P(u_j) = P_j независимо от того, какие знаки предшествовали ему – в простейшем случае, либо (как в тексте реального языка) – в зависимости от реализации в последовательности S_i⁽ⁿ⁾ ряда знаков из множества {u_j} , стоящих до появления очередного знака u_ik. В последнем случае следует применять вероятностные модели типа цепей Маркова. В первом (простейшем) случае ситуация определяется только совокупностью P ={P_j} априорных вероятностей появления знаков {u_j} в любой из последовательностей S_i⁽ⁿ⁾; i, n = 1, 2, …

Понятие количества информации, содержащейся в данном i-м сообщении S_i⁽ⁿ⁾, трудно сформулировать на синтактическом (структурном) уровне семиотической системы. На семантическом (смысловом) уровне элементарным сообщением является слово или предложение. Язык позволяет сконструировать практически бесконечное множество предложений. Однако большинство из них не будут иметь смысла – не будут содержать семантической информации.

Чтобы определить количество информации, содержащейся в данном осмысленном предложении, нужно предъявить его субъекту-ПИ и посмотреть на его реакцию (фрагмент информационного взаимодействия двух субъектов в системе ЭТИС – см. разд.2).

В рамках тезаурусовсубъекта-ДИС и субъекта-ПИ потенциально могут быть сформулированы (сформированы) три типа осмысленных сообщений: предложения, содержащие информацию о достоверных событиях («Великая Французская революция началась 14 июля 1789г. взятием Бастилии.»), о невозможных («Создан вечный двигателя II рода.») и о неопределённых («Завтра днём ожидается малооблачная погода, временами – дождь; ветер – северный, слабый до умеренного.»).

Пусть субъект-ДИС предъявил субъекту-ПИ сообщение о достоверном(для обоих субъектов) событии. Субъект-ПИ осознал это сообщение – и тут же «выбросил его из головы»:для негоколичество информации, содержащейся в этом сообщении, нулевое.

Пусть субъект-ДИС передал сообщение о событии, которое в тезаурусе субъекта-ПИ имеет большýю априорную вероятность (объективную ожидаемость): (а) «По прогнозу гидрометеоцентра: завтра днём 30 сентября в Санкт-Петербурге ожидается 5-10 градусов тепла». Субъект-ПИ оценит количество семантической информации, содержащейся в сообщении (а), как небольшое. А вот сообщение: (б) «По прогнозу гидрометеоцентра: завтра днём 30 сентября в Санкт-Петербурге ожидается от 10 до 15 градусов мороза» – с точки зрения субъекта-ПИ – содержит большое количество информации (на семантическом уровне семиотики). Если субъект-ПИ не собирается назавтра идти на улицу, то он удивится (реакция субъекта-ПИ на семантическом уровне семиотики), но не предпримет каких-либо особых действий (прагматический уровень семиотики). Если же назавтра ему предстоит выйти из дома, то он не только удивится, но и приготовит тёплую одежду и обувь (прагматический уровень семиотики).

Таким образом,

количество информации, содержащейся в знаковом сообщении, непосредственно связано с априорной вероятностью реального события, о котором информирует субъекта-ПИ данное сообщение.

Далее. Если субъект-ПИ получил два никак не связанных между собой сообщения («В огороде – бузина.» и «В Киеве – дядька.»), то количество информации, содержащейся в этих двух сообщениях вместе, должно равняться сумме количеств информации, содержащейся в каждом из них в отдельности: свойство аддитивности информации.

Кроме того, количество семантической информации – величина положительная (неотрицательная), так как бессмысленное предложение или предложение на непонятном субъекту-ПИ языке воспринимается им только как факт наличия языкового сообщения, недоступного для его понимания – третья позиция субъекта-ПИ по отношению к сообщению (см. Прил.1). А дезинформация в тезаурусе субъекта-ПИ содержит позитивную информацию, если он не знаком с происхождением этого сообщения.

Следовательно,

насемантическом уровне семиотики количество информации, содержащейся в принятом субъектом-ПИ сообщении, определяется «априорной вероятностью» P_r, с которой оценивает субъект-ПИ в своём тезауруседанное сообщение из бесконечного множества ему подобных.

Это количество информации – величина положительная и может изменяться от нуля (при P_r = 1) до произвольно большого значения. Если же субъект-ПИ получил последовательность независимых (никак не связанных между собой) сообщений, то общее количество полученной им информации равно сумме количеств информации, содержащейся в каждом отдельном сообщении.

Однако этисвойства количественной меры семантические информации не могут быть непосредственно перенесены на синтактическийуровень формально-математических моделей знаковых (семиотических) систем, ибо на этом уровне отсутствуют смысловые (семантические) и ценностные (прагматические) критерии оценки содержания получаемых сообщений. Кроме того, семантические критерии у субъекта-ДИС и у субъекта-ПИ могут быть различными: смысл, который субъект-ДИС вкладывал в данное сообщение, может быть «переосмыслен» субъектом-ПИ или не понят им вовсе. В таких случаях даже при высококачественном канале связи происходит потеря информации при её передаче от источника ДИС к получателю ПИ. Дополнительная потеря информации происходит непосредственно в подсистеме передачи и приёма сообщений ПСППС – по различным причинам: плохое освещение, низкокачественный текст, неразборчивый почерк, помехи в канале связи ПСППС и т. п.

Рассмотрим некоторый идеальный случай статической подсистемы ПСППС: субъект-ИС точно формулирует своё сообщение на выбранном им языке и безошибочно вводит текст этого сообщения (например с помощью клавиатуры ПК) в подсистему ПСППС; подсистема ПСППС без искажений доводит текст до субъекта-ПИ; субъект-ПИ правильно воспринимает текст и правильно интерпретирует переданное сообщение. В этом случае количество переданной субъектом-ИС и принятой субъектом-ПИ информации является функцией только априорной вероятности P_r данного сообщения в их общем тезаурусе, а количество семантической информации, содержащейся в последовательности независимых сообщений, равно сумме количеств информации, содержащейся в каждом из них.

Для математического анализа статических информационных эроготехнических систем, следовательно, можно применить вероятностные модели дискретных событий (см. например [7, 8, 12]). Простейшим понятием в этих моделях является вероятностное пространство {U_ε, P_ε, F_ε}, которое является совокупностью множества U_ε независимых элементарных событий ε_j (j = 1, 2, …, N) множества P_ε их априорных вероятностей P_j и множества F_ε сложных событий A_k, составленных из этих элементарных. Пространство {U_ε, P_ε, F_ε} должно быть дополнено правилами вычисления вероятностей P(A_k) сложных событий по вероятностям P_j элементарных ε_j.

Для математического анализа технических информационных систем мы можем формально (аксиоматически) перенести количественные свойства информации, выявленные на семантическом уровне семиотики, на синтактический уровень, ибо техническая подсистема информационной эрготехнической системы не может оперировать со смыслами передаваемых сообщений и объективно оценивать субъективные ожидания субъекта-ПИ. Для технических информационных систем – как подсистем ЭТИС – в качестве элементарных событий ε_j (j = 1, 2, ..., N) должны выступать элементарные сообщения u_j ( j = 1, 2, ..., N), выдаваемые источником ДИС, а в качестве их априорных вероятностей P_j – частотности этих сообщений в достаточно длинных последовательностях сообщений S_i⁽ⁿ⁾ = (u_i₁, u_i₂, …, u_ik, …, u_in), то есть при n → ∞.

Если язык сообщений – письменный, то в качестве такого множества можно было бы взять отдельные слова (иероглифическое письмо). Однако в этом случае количество N элементарных сообщений {u_j} будет неоправданно большим (две-три сотни тысяч). Поэтому лучше всего элементарным сообщением считать отдельный языковый знак: букву, цифру, знак препинания, пробел и т. д. Всего таких «возможных элементарных сообщений» будет менее сотни. Эти языковые элементы назовём элементарными сообщениями(синтактического уровня), илизнаками, или же первичными символами. Ясно, что разбиение знаков на графические элементы (как это делается в иероглифическом письме) является нерациональным.

Будем считать, что поток элементарных сообщений (сложное сообщение – текст S_i⁽ⁿ⁾), поступающий в статическую подсистему ПСППС, представляет собой последовательность знаков (первичных символов). Частотности появления этих знаков в текстах будут различными. Поэтому информационная модель источника ДИС должна состоять, во-первых, из множества знаков U = {u_j} и, во-вторых, из соответствующего ему множества P = {P_j} априорных вероятностей появления знаков в различных текстах. При этом вероятности P_j можно оценить статистически: для данного типа длинных текстов

P_j = , где n_i _j – количество знаков u_j, содержащихся в любом i-м сообщении S_i⁽ⁿ⁾.

Отметим, что множество U – не упорядочено (бессмысленно говорить, что буква “а” больше или меньше буквы “я”). Введение на множестве U информационной меры I = {I_j} делает его (линейно) упорядоченным, а значит – измеримым. То есть про любые два различные элемента u_j U и u_l U можно будет сказать, что один из них (скажем u_j) содержит не меньше информации, чем другой (например u_l): I(u_j) ≥ I(u_l), или I_j ≥ I_l. При этом элемент u_j содержит больше информации, чем u_l, на [I(u_j) – I(u_l)] единиц информации.

В естественных языках вероятности P_j появления элементарных сообщений (знаков u_j U) зависят не только от их априорных вероятностей (частотностей) P_j P, но и от того, какой текст был набрандо появления данного знака. В простейшем (идеализированном) случае будем считать, что появление данного знака u_j U в данном месте текста не зависит от реализации предыдущей части текста. Тогда простейшая знаковая (семиотическая, «дискретная») информационная модель источника ДИС {U, P, I, S} будет состоять из:

• конечного множества (алфавита) элементарных сообщений (знаков, первичных символов) U = {u₁, u₂, …, u_j, …, u_N};

• множества P = {P_j} априорных вероятностей (частотностей) их появления в разных местах различных текстов;

• множества S последовательностей S_i⁽ⁿ⁾ (i = 1, 2, …, Nⁿ) элементарных сообщений (S_i⁽ⁿ⁾ S) вида S_i⁽ⁿ⁾ = (u_i₁, u_i₂, …, u_ik, …, u_in ), то есть множества всех возможных сообщений длины n = 1, 2, …;

• информационного множества I = {I₁, I₂, …, I_j, …, I_N}, где I_j – количество информации, заключающейся в элементарном сообщении (знаке) u_j U;

а также содержать правила вычисления количества информации I(S_i⁽ⁿ⁾), заключающейся в любом из сообщений S_i⁽ⁿ⁾ S.

Определим величину количества информации I(u) для элементарного «дискретного» сообщения (знака) u U, имеющего априорную вероятность или частотность P.

Ясно, что семантического смысла знак “u” не имеет. Поэтомуперенесём формально основные свойства семантической информационной меры на синтактический уровень в качестве постулатов(декларируемых утверждений).

То есть положим, что:

1) величина I(u) является некоторой функцией I(u) = f(P) от априорной вероятности P элементарного сообщения u U, котораядолжна обладать следующиминеобходимымисвойствами;

2) f(P) ≥ 0, то есть количество информации в любом элементарном сообщении u U неотрицательно; f(P) = 0 только при P = 1; при P = 0 значение функции f(P) не определено ( f(0) = + ∞);

3) если имеется совокупность двух элементарных сообщений, то есть u_j U и u_l U, с априорными вероятностями P_j = P(u_j) и P_l = P(u_l) и если P_l > P_j, то f(P_l) < f(P_j), то есть функция f(P) – строго убывающая.

Общий вид функции f(P), удовлетворяющей постулатам 1)–3), для наглядности приведён на рис.2.

бит I Таких функций f(P) существует

бесконечноемножество. Однако, ис-

3 ходя из семантического принципа ад-

дитивности информации, дляоднозна-

2 f(P) чного определения функции f(P) дос-

таточно ввести ещё один (четвёртый)

1 постулат:

4) f(S_i⁽²⁾) = f[P(u_j, u_l)] = f(P_j ∙ P_l) = f(P_j) + f(P_l),

тоесть количествоинформации,содер-

0 0,5 1,0 P жащейсявлюбойi-йпоследовательнос-

Рис. 2. Зависимость количества ти S_i⁽²⁾ = (u_i_j, u_i_l) из двух элементарных

информации I от априорной вероят- независимыхсообщенийu_j Uиu_l U,

ности P выдачи источником ДИС равно сумме количеств информации, со-

элементарного сообщения u U держащейсявкаждомизнихв отдель-

ности (аддитивностьинформационной

меры). К.Шеннон показал, а А.Я.Хинчин математически строго доказал, чтоединственной функцией, удовлетворяющей всем четырём постулатам 1)–4), являетсялогарифмическая функция: I(u) = – K log_aP(u), где K > 0.

Итак,

количество синтактической информации I(u), содержащейся в некотором знаке u

U, который имеет априорную вероятность появления в любом месте i-й последовательности S_i⁽ⁿ⁾ =( u_i₁, u_i₂, …, u_i _k, …, u_i _n)

S независимых элементарных сообщений (знаков) длины n, определяется формулой I(u) = – K log_aP(u), где K – некоторая положительная константа.

Поскольку величина P оценивается статистически, мера I(u) называется статистической информационной мерой Шеннона.

С помощью построенной информационной модели {U, P, I, S} источника ДИС можно проводить самые различные информационные расчёты. Остаётся договоритьсяоединицахизмеренияколичествасинтактическойинформации I_j = – K log_aP_jв знаковой системе U = {u_j} .

Для простоты вычислений, как это принято в физических дисциплинах, лучше всего положить K = 1. Если в качестве основания a логарифмов выбрать число 2, то такие единицы называютсябитами(bit = BInary uniT – двоичная единица, или BInary digiT – двоичная цифра); если трансцендентное число e ≈ 2,7183 – тонатами(натуральные единицы); если a = 10 – тодитами(десятичными единицами, или Хартами – в честь упомянутого ранее Р.Хартли).

За последние полвека наибольшее распространение в качестве единиц количества информации получилибиты.

Количество битов информации I(u), содержащейся в элементарном сообщении u U, которое выдаётся источником ДИС с априорной вероятностью P(u), равно I(u) = – log ₂P(u) (бит). Один бит информации I(u) = 1 содержится в сообщении u, имеющем априорную вероятность появления в тексте P(u) = 0,5 (см. рис.2): I₀(1/2)= – log ₂ (1/2) = log ₂2 = 1 (бит).

В литературе по теории информации обычно не оговаривают каждый раз основание логарифма в выражении I(u) = – log _a P(u). Если в качестве единиц информации имеют в виду натуральные, то пишут I(u) = – ln P(u) (нат); если десятичные, то пишут I(u) = – lg P(u) (дит, или Харт); если же двоичные – то просто I(u) = – log P(u) (бит).

Вопросы для самопроверки

1. Какие основные типы сообщений существуют на семантическом уровне семиотики?

2. Что такое свойство аддитивности информации?

3. Каково определение понятия «количество семантической информации»?

4. Какова простейшая информационная модель источника знаковых (дискретных) сообщений?

5. Каковы первые три постулата математической теории информации и что они определяют?

6. В чём смысл четвёртого постулата (постулата аддитивности) математической теории информации?

7. Каковы основные единицы измерения синтактической информации?

<1 2 345 6 7 >

Дата добавления: 2015-05-16; просмотров: 827;