Вероятностный подход

Информация нуждается в измерении. На практике количество информации измеряется с точки зрения синтаксической адекватности. Исторически сложились два подхода к измерению информации: вероятностный и объемный. В 1940-х гг. К. Шеннон предложил вероятностный подход, а работы по созданию ЭВМ способствовали развитию объемного подхода.

Рассмотрим вероятностный подход к измерению количества информации в соответствии с первой концепцией информации (раздел 2.1).

Пусть потребитель получил в сообщении b некоторую дополнительную информацию I_b(a) о системе a, уменьшившую его первоначальную неопределенность о системе H(a) до степени H_b(a):

I_b(a) = H(a) – H_b(a),

то есть количество информации измеряется изменением (уменьшением) неопределенности.

Мера неопределенности H(a) называется энтропией.

Рассмотрим систему a, которая в каждый момент времени может принимать одно из N состояний, причем каждое из состояний равновероятно. Например, в качестве системы могут выступать опыты с подбрасыванием монеты (N = 2) или бросанием игральной кости (N = 6).

Энтропия системы a вычисляется по формуле, предложенной Р. Хартли:

H = H(a) = log₂ N = .

При N = 2 энтропия минимальна и равна H = 1. Поэтому в качестве единицы информации принимается количество информации, связанное с двумя равновероятными состояниями системы, например: «орел» – «решка», «ложь» – «истина». Такая единица количества информации называется бит.

Введем понятие вероятности. Вероятность события A – это отношение числа случаев M, благоприятствующих событию A, к общему количеству случаев N:

P = .

Пример 2.4. Найти вероятность выпадения числа 6 при бросании кости.

Решение. Всего граней у кости N = 6. Число 6 может выпасть M = 1.

Следовательно, вероятность выпадения числа 6 при бросании кости:

P = = . □

Пример 2.5. Найти вероятность выпадения числа большего 3 при бросании кости.

Решение. Всего граней у кости N = 6. Чисел больших 3 на гранях кости M = 3: 4, 5, 6.

Следовательно, вероятность выпадения числа большего 3 при бросании кости:

P = = = . □

Если N состояний системы неравновероятны, то есть система находится в i-м состоянии с вероятностью P_i, и при этом все состояния системы образуют полную группу событий, то есть сумма вероятностей равна 1:

= 1,

то используются следующие формулы, предложенные Шенноном.

Для определения количества информации в одном (i-м) состоянии системы:

H = ,

и среднего количества информации во всех состояниях системы:

H = = – .

Значение количества информации для системы с N состояниями, вычисленное по формуле Хартли, будет больше, чем значение, вычисленное по формуле Шеннона. Следовательно, количество информации максимально, если состояния системы равновероятны.

Пример 2.6. Вычислительная система может находиться в одном из N = 3 состояний: «включено (простой)», «вычисление», «выключено». Оператор получил сообщение о состоянии системы. Какое количество информации получил оператор? Рассмотреть два случая:

1) состояния системы равновероятны;

2) состояния системы неравновероятны; вероятность нахождения системы в состоянии «включено (простой)» P₁ = 0,3; состоянии «вычисление» P₂ = 0,5; состоянии «выключено» P₃ = 0,2.

Решение. В первом случае используем формулу Хартли:

H_х = log₂ N = log₂ 3 = 1,58 бит.

Во втором случае используем формулу Шеннона:

H_ш = – = – (0,3 log₂ 0,3 + 0,5 log₂ 0,5 + 0,2 log₂ 0,2) =

= – (– 0,52 – 0,5 – 0,46) = 1,48 бит. □

Значение количества информации, вычисленное по формуле Хартли, больше значения, вычисленного по формуле Шеннона.

Пример 2.7. В условиях задачи из примера 2.6 определить количество информации, которое получил оператор в сообщении о состоянии «выключено», вероятность которого P₃ = 0,2.

Решение. Используем формулу Шеннона для одного состояния:

H = = = 2,32 бита. □

Можно сделать вывод, что чем событие маловероятнее, тем больше информации может быть получено при его возникновении.

Объемный подход

Объем данных V в сообщении измеряется количеством символов (разрядов) в этом сообщении. В информатике в основном используется двоичная система счисления, то есть все числа представляются двумя цифрами: 0 и 1. Поэтому минимальной единицей измерения данных является бит. Таким образом, 1 бит – это либо 0, либо 1. Элемент, принимающий всего два значения, называется двухпозиционным и просто реализуется аппаратно, например, двумя состояниями «включено» – «выключено», «ток есть» – «ток отсутствует».

Более подробно о системах счисления будет рассказано в следующей главе.

Наряду с битом используется укрупненная единица измерения – байт, равная 8 бит.

Пример 2.8. Сообщение в двоичной системе счисления 10010010 имеет объем данных V = 8 бит. Этот объем данных представляется 1 байтом. □

Для удобства использования введены и более крупные единицы объема данных:

1024 байт = 1 килобайт (Кбайт);

1024 Кбайт = 1 мегабайт (Мбайт) = 1024² байт = 1048576 байт;

1024 Мбайт = 1 гигабайт (Гбайт) = 1024³ байт;

1024 Гбайт = 1 терабайт (Тбайт) = 1024⁴ байт;

1024 Тбайт = 1 пентабайт (Пбайт) = 1024⁵ байт.

Общий объем информации в книгах, цифровых и аналоговых носителях за всю историю человечества составляет по разным оценкам 10¹⁸ байт. Зато следующие 10¹⁸ байт будут созданы за следующие 5-7 лет.

Отличием объема данных от количества информации заключается в следующем. Объем данных выражается только целыми значениями, а количество информации – вещественными.

Формулу Хартли можно использовать для определения объема данных. При этом результат округляется в большую сторону, так как минимальной ячейкой памяти в ЭВМ является байт. Поэтому, заняв только часть байта (его несколько бит), оставшаяся часть байта остается незанятой.

Пример 2.9. В сообщениях используются только первые шесть букв латинского алфавита: A, B, C, D, E, F. Сколько байт необходимо для хранения сообщения «AABBCCD»?

Решение. Определим сколько бит необходимо для хранения одной буквы по формуле Хартли и округлим результат в большую сторону:

V_Б = log₂ 6 = 2,58 = 3 бита.

Тремя битами можно представить 8 комбинаций: 000, 001, 010, 011, 100, 101, 110, 111. Для кодирования 6 букв используются первые шесть комбинаций, а две последние комбинации не используются.

Для сообщения, состоящего из M = 7 букв, необходимо

V_С = M V_Б = 7 × 3 = 21 бит = 2,625 байт = 3 байта. □

<1 2 345 6 7 >

Дата добавления: 2019-04-03; просмотров: 831;