III. Меры и единицы представления, измерения и хранения информации в компьютере
Самостоятельная работа: [1] – стр. 58–61, 714–715; [4] – стр. 74–87
Подход к информации как к мере уменьшения неопределённости наших знаний позволяет количественно измерять информацию, полученную через некоторое сообщение.
Клод Шеннон предложил в 1948 году формулу для определения количества информации, которую мы получаем после получения одного из N возможных сообщений ([3] стр.10):
I = –(p1log2p1+ p2log2p2+…+ pNlog2pN)
Здесь pi – вероятность того, что будет получено именно i-е сообщение. Если все сообщения равновероятны, то все pi=1/N и из этой формулы получается формула Хартли:
I = log2N
Бит – количество информации, необходимое для различения двух равновероятных сообщений. В вычислительной технике битом называют наименьший элемент памяти, необходимый для хранения одного из двух знаков «0» или «1», используемых для внутримашинного представления данных и команд.
Наряду с единицей бит иногда используют в качестве единицы информации количество, взятое по логарифму с другим основанием: дит – по десятичному логарифму, нут (нат, нит?) – по натуральному основанию.
(Если за единицу информации выбрать количество информации, необходимой для различения десяти равновероятных сообщений, то это будет десятичная (дит) единица информации.)
Бит очень удобен для использования двоичной формы представления информации. Для каждого типа информации (символьный, текстовый, графический, числовой) был найден способ представить ее в едином виде как последовательности только двух символов. Каждая такая последовательность называется двоичным кодом. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим числом простых однотипных элементов, чем с небольшим числом сложных.
Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0.
Способы двоичного кодирования информации разного типа: текстовой, числовой, графической, аудио- и видео-информации рассмотрены в [1] стр. 59–69, [4] стр. 59–69, 107–122.
Байт – элемент памяти компьютера, состоящий из 8 битов.
Более крупные единицы измерения информации:
1 Кб=210байт=1024 байт
1 Мб=210Кбайт=1024 Кбайт=220байт
1 Гб=210Мбайт=1024 Мбайт=230байт
1 Терабайт=210Гбайт=1024 Гбайт=240байт
1 Петабайт=210Тбайт=1024 Тбайт=250байт
Кодирование числовой информации [1] – стр. 65; [4] – стр. 103–107.
Основные виды данных, с которыми работает ЭВМ.
1. Целые:
– Byte- 0-256 (один байт памяти);
– Integer – -32768– 32767 (два байта памяти);
– Long – -2 147 483 648 – 2 147 483 647) (четыре байта памяти)
2. Вещественные:
– Single – 7-8 значащих цифр от -1,4*10-45 до 3,4*1038 (четыре байта памяти);
– Double – 15-16 значащих цифр от -5,0*10-324 до 1,7*10308 (восемь байт памяти).
3. символьные (один байт памяти)
4. логические (Boolean)
Способы кодирования целых чисел. Различают прямой, обратный и дополнительный коды (способы кодировки).Для положительных целых чисел прямой, обратный и дополнительный коды одинаковы. В прямом коде первый бит памяти, отведённый под число, показывает знак числа: 0 – положительное, 1 – отрицательное. Остальные биты отводятся под двоичный код модуля числа.
Примеры.
12710 → 0111 11112 ; –12710 → 1111 1111; 110→ 0000 00012 –110 –→ 1000 00012
В обратном коде все двоичные цифры, кроме знака, инвертируют (заменяют 0→ 1, 1→ 0).
Примеры. –12710 → 1111 11112 → 100000002; –110 → 1111 11102.
Дополнительный код получают из обратного кода целого отрицательного числа, добавляя к младшему разряду 12.
Примеры. –110 →1111 11112 ; –12710 → 1000 00012
Кодирование текстовой информации [1] – стр. 62–65; [4] – стр. 107–111.
Кодирование графической, аудио- и видеоинформации [1] – стр. 65–69, 714–715; [4] – стр. 111–119.
Байт может находиться в 28 = 256 различных состояний. Эти состояния перенумерованы, и каждому сопоставляется какой-либо буквенный символ или графический элемент, необходимый при оформлении текстовой информации. Такое соответствие называется кодовойтаблицей. В настоящее время применяются разные варианты кодовых таблиц. Наиболее распространённые:
ASCII– American Standart Code for Information Interchange – американский стандартный код для обмена информацией;
КОИ8-Р – Код Обмена Информацией 8-битный с кириллицей;
CP1251 – (Code Page) – кодировка с кириллицей в Microsoft Windows;
CP866 – кодировка MSDOS;
ISO 8859-5 – International Standards Organization – Международная организация по стандартизации. Ещё один стандарт для кодов для кириллицы.
Множество кодовых таблиц вызвано тем, что с учетом разнообразия естественных языков и фирм, выпускающих программное обеспечение, 256 состояний одного байта недостаточно для того, чтобы закодировать все встречающиеся символы и способы форматирования текста. При разработке всех кодовых таблиц использовано следующее соглашение: первая половина таблицы – это коды с 0 по 127 – интернациональна, то есть, одинакова во всех вариантах кодировок. Первые 33 состояния (0–32) – это коды операций с текстом (перевод на новую строку, пробел, удаление последнего символа и т. п.). Затем состояния с 33 по 127 – это коды знаков препинания, арифметических действий, цифр, строчных и прописных букв латинского алфавита. Вторая половина кодовых таблиц отводится под знаки национальных и специальных алфавитов и ввода в текст графических элементов для оформления таблиц.
В конце 90-х годов появился новый международный стандарт Unicode, который отводит под символ 2 байта. Каждый блок из 2-х байт может находиться в 216 =65536 состояниях. Этого достаточно, чтобы в одной таблице собрать символы большинства алфавитов мира. Правда, длина текста удваивается, и скорость его обработки замедляется. Но, в связи с существенным увеличение памяти и быстродействия современных компьютеров, этим можно пренебречь.
----------------------------------------------------------------------------------------------------------------
При создании автоматизированных средств перекодирования данных (принтеры, дисплеи и т.п.) встает вопрос о стандартизации правил кодирования. Сегодня наибольшее распространение получили стандарты кодирования данных ASCII (American Standart Code for Information Interchange). Этот стандарт используется на компьютерах с текстовым режимом работы устройств отображения (печатные машинки, дисплеи с теневыми масками) и использует специальные «буквы» для изображения таблиц. При использовании графических устройств отображения данных (растровые (матричные) принтеры, дисплеи) создан стандарт ANSI, в котором для изображения таблиц используется горизонтальная или вертикальная «засветка» точек. Оба стандарта позволяют задавать правила кодирования только двух алфавитов. Для автоматизации настройки набора воспроизводимых символов введено понятие «кодовая страница» – номер правил кодирования букв национальных алфавитов. Так, например, 866 страница содержит правила кодирования русских (кириллических) шрифтов в ASCII, а 1251 – в ANSI. Этот номер передается специальной программе - знакогенератору, настраивающей набор отображаемых символов.
Для преодоления ограничений на количество кодируемых с помощью одного байта состояний (256) разработан стандарт UNICOD, в котором для перекодировки букв используется 2 байта.
-------------------------------------------------------------------------------------------------------
Дата добавления: 2015-07-18; просмотров: 3232;