Измерение информации в тексте

ИЗМЕРЕНИЕ ИНФОРМАЦИИ

Информация (от лат. information – разъяснение, осведомление) – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (энтропии).

Количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Бит – количество информации, полученное из сообщения, уменьшающего неопределенность знаний в два раза.Бит соответствует одному двоичному разряду (0, 1).

Более крупой единицей измерения количества информации является байт (1 байт = 8 бит).

Существуют и другие единицы измерения количества информации:

1 килобайт (Кб) = 210 байт = 1024 байт.

1 мегабайт (Мб) = 210 Кб = 220 байт.

1 гигабайт (Гб) = 210 Мб = 220 Кб = 230 байт.

1 терабайт (Тб) = 210 Гб = 220 Мб = 230 Кб = 240 байт.

 

Измерение информации в тексте

 

При измерении количества информации в тексте, записанном с помощью N-символьного алфавита, используют следующие формулы:

I = i × k; i = log2N; (формула Хартли) N = 2i,

где I – количество информации в тексте; i – количество информации, которое несет один символ (в битах); k – количество символов в тексте; N – мощность алфавита.

 

Задача 1.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

1. при бросании монеты: "выпала решка", "выпал орел";

2. на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.








Дата добавления: 2015-10-05; просмотров: 1862;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.