КОЛИЧЕСТВО ИНФОРМАЦИИ

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации и выразить ее количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В современной информатике приняты следующие характеристики измерения информации:

- энтропийный;

- объемный;

- алгоритмический.

3.1 Энтропийная характеристика информации

Количество информации в сообщении определяется при энтропийном методе тем, насколько уменьшится неопределенность в появлении некоторых событий после получения сообщения и выражается математической зависимостью от совокупности вероятности этих событий.

H = log ₂ N,

Данную формулу предложил в 1928 г Хартли, США.

Если исходов N, но их вероятности различны: p₁, p₂… p_N, то применяют формулу Клода Шеннона, США, предлженную в середине 40-х

H= - (p₁ log₂ P₁ + p₂ log₂ P₂ + … + p_N log₂ P_N).

Легко заметить, что если вероятности p₁, … , p_N равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

В вычислительной технике вся обрабатываемая информация не зависимо от ее природы (текст, число, изображение и т.д.) представляется в двоичной форме записи числа, т.е. состоящая из двух символов 0и 1.Один такой символ называется битом.

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений, уменьшающее неопределенность знаний в 2 раза.

Битом в вычислительной технике называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Примеры:

«Орел–решетка» при бросании монеты. 2 исхода, исходы равновероятны. В сообщении: “Монета выпала орлом” – 1 бит информации. Было два возможных исхода, остался 1.

3.2 Объемный (символьный) метод определения количества информации

Объемный (символьный) метод определения количества информации представляет собой определение количества символов, содержащихся в конкретном сообщении.

Например, одно и тоже число можно записать разными способами:

1 – й способ – 20;

2 –й способ – “двадцать”;

3 –й способ – ХХ;

4 –й способ – 011 000.

Символьный метод не связывает количество информации в сообщении с его содержанием.

Алфавит– все множество символов данного языка, включая цифры, знаки препинания и даже пробел.

Полное количество символов – мощность алфавита N. В русском языке N=54 (все буквы + пробел + цифры + знаки препинания). При этом (принимаем, что появление символов равновероятно)

I₅₄ = log₂54 = 5,755.

Если количество символов в тексте равно М, то текст несет объем информации I₅₄*М или 5,755 М (при любом содержании!)

Количество информации – функция от мощности алфавита и объема текста.

Одна страница текста на разных языках – разные объемы информации.

Достаточный алфавит содержит 256 символов – русский и латинский алфавиты, цифры, знаки препинания и др. символы, включая элементы псевдографики.

Бит слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам.

Именно восемь бит требуется для того, чтобы закодировать любой из 256 символов. Считая появление различных символов равновероятным, находим, что энтропия достаточного алфавита составляет

I₂₅₆= log₂256 = 8 бит = 1 байт.

Значит, любая книга, набранная на компьютере, имеет объем информации 8S байт, где S – число символов. При 40 строках по 60 символов 1 страница содержит 2400 байт информации.

При строгом подходе для определения объема информации на одной странице надо брать формулу Шеннона.

Широко используются также еще более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 2¹⁰ байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 2²⁰ байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 2³⁰ байт,

1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

Скорость передачи информации измеряется в Кбайт/с, бит/с, байт/с.

<1 234 5 6 7 >

Дата добавления: 2015-08-08; просмотров: 1049;