Измерение информации в тексте

ИЗМЕРЕНИЕ ИНФОРМАЦИИ

Информация (от лат. information – разъяснение, осведомление) – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (энтропии).

Количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Бит – количество информации, полученное из сообщения, уменьшающего неопределенность знаний в два раза.Бит соответствует одному двоичному разряду (0, 1).

Более крупой единицей измерения количества информации является байт (1 байт = 8 бит).

Существуют и другие единицы измерения количества информации:

1 килобайт (Кб) = 2¹⁰ байт = 1024 байт.

1 мегабайт (Мб) = 2¹⁰ Кб = 2²⁰ байт.

1 гигабайт (Гб) = 2¹⁰ Мб = 2²⁰ Кб = 2³⁰байт.

1 терабайт (Тб) = 2¹⁰ Гб = 2²⁰ Мб = 2³⁰ Кб = 2⁴⁰ байт.

Измерение информации в тексте

При измерении количества информации в тексте, записанном с помощью N-символьного алфавита, используют следующие формулы:

I = i × k; i = log₂N; (формула Хартли) N = 2ⁱ,

где I – количество информации в тексте; i – количество информации, которое несет один символ (в битах); k – количество символов в тексте; N – мощность алфавита.

Задача 1.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log₂100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

1. при бросании монеты: "выпала решка", "выпал орел";

2. на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p₁log₂ p₁ + p₂ log₂ p₂ + . . . + p_N log₂ p_N),
где p_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

<12 3 4 5 6 7 >

Дата добавления: 2015-10-05; просмотров: 1957;