Измерение информации в тексте
ИЗМЕРЕНИЕ ИНФОРМАЦИИ
Информация (от лат. information – разъяснение, осведомление) – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (энтропии).
Количество информации измеряется изменением (уменьшением) неопределенности состояния системы.
Бит – количество информации, полученное из сообщения, уменьшающего неопределенность знаний в два раза.Бит соответствует одному двоичному разряду (0, 1).
Более крупой единицей измерения количества информации является байт (1 байт = 8 бит).
Существуют и другие единицы измерения количества информации:
1 килобайт (Кб) = 210 байт = 1024 байт.
1 мегабайт (Мб) = 210 Кб = 220 байт.
1 гигабайт (Гб) = 210 Мб = 220 Кб = 230 байт.
1 терабайт (Тб) = 210 Гб = 220 Мб = 230 Кб = 240 байт.
Измерение информации в тексте
При измерении количества информации в тексте, записанном с помощью N-символьного алфавита, используют следующие формулы:
I = i × k; i = log2N; (формула Хартли) N = 2i,
где I – количество информации в тексте; i – количество информации, которое несет один символ (в битах); k – количество символов в тексте; N – мощность алфавита.
Задача 1.
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Приведем другие примеры равновероятных сообщений:
1. при бросании монеты: "выпала решка", "выпал орел";
2. на странице книги: "количество букв чётное", "количество букв нечётное".
Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.
Дата добавления: 2015-10-05; просмотров: 1856;