КОЛИЧЕСТВО ИНФОРМАЦИИ
В определенных, весьма широких условиях можно пренебречь качественными особенностями информации и выразить ее количество числом, а также сравнить количество информации, содержащейся в различных группах данных.
В современной информатике приняты следующие характеристики измерения информации:
- энтропийный;
- объемный;
- алгоритмический.
3.1 Энтропийная характеристика информации
Количество информации в сообщении определяется при энтропийном методе тем, насколько уменьшится неопределенность в появлении некоторых событий после получения сообщения и выражается математической зависимостью от совокупности вероятности этих событий.
H = log 2 N,
Данную формулу предложил в 1928 г Хартли, США.
Если исходов N, но их вероятности различны: p1, p2… pN, то применяют формулу Клода Шеннона, США, предлженную в середине 40-х
H= - (p1 log2 P1 + p2 log2 P2 + … + pN log2 PN).
Легко заметить, что если вероятности p1, … , pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.
В вычислительной технике вся обрабатываемая информация не зависимо от ее природы (текст, число, изображение и т.д.) представляется в двоичной форме записи числа, т.е. состоящая из двух символов 0и 1.Один такой символ называется битом.
Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений, уменьшающее неопределенность знаний в 2 раза.
Битом в вычислительной технике называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.
Примеры:
«Орел–решетка» при бросании монеты. 2 исхода, исходы равновероятны. В сообщении: “Монета выпала орлом” – 1 бит информации. Было два возможных исхода, остался 1.
3.2 Объемный (символьный) метод определения количества информации
Объемный (символьный) метод определения количества информации представляет собой определение количества символов, содержащихся в конкретном сообщении.
Например, одно и тоже число можно записать разными способами:
1 – й способ – 20;
2 –й способ – “двадцать”;
3 –й способ – ХХ;
4 –й способ – 011 000.
Символьный метод не связывает количество информации в сообщении с его содержанием.
Алфавит– все множество символов данного языка, включая цифры, знаки препинания и даже пробел.
Полное количество символов – мощность алфавита N. В русском языке N=54 (все буквы + пробел + цифры + знаки препинания). При этом (принимаем, что появление символов равновероятно)
I54 = log254 = 5,755.
Если количество символов в тексте равно М, то текст несет объем информации I54*М или 5,755 М (при любом содержании!)
Количество информации – функция от мощности алфавита и объема текста.
Одна страница текста на разных языках – разные объемы информации.
Достаточный алфавит содержит 256 символов – русский и латинский алфавиты, цифры, знаки препинания и др. символы, включая элементы псевдографики.
Бит слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам.
Именно восемь бит требуется для того, чтобы закодировать любой из 256 символов. Считая появление различных символов равновероятным, находим, что энтропия достаточного алфавита составляет
I256 = log2 256 = 8 бит = 1 байт.
Значит, любая книга, набранная на компьютере, имеет объем информации 8S байт, где S – число символов. При 40 строках по 60 символов 1 страница содержит 2400 байт информации.
При строгом подходе для определения объема информации на одной странице надо брать формулу Шеннона.
Широко используются также еще более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт,
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
Скорость передачи информации измеряется в Кбайт/с, бит/с, байт/с.
Дата добавления: 2015-08-08; просмотров: 1049;