Двоичное кодирование текстовой информации
Для представления символьной (текстовой) информации в компьютере используются кодовые таблицы символов.
Нажатие клавиши на клавиатуре посылает в ПК двоичное число – комбинацию 0 и 1 (1 байт). Любую комбинацию можно интерпретировать как десятичное число от 0 до 255. Например, при нажатии клавиши «А» посылается число 01000001 (десятичное 65). Для машины это число может служить номером «литеры» с изображением А, которая хранится в памяти машины. Специальные электронные схемы по этому номеру находят «литеру» и печатают ее на экране. Присвоение символу конкретного двоичного кода произведено в соответствии с принятым соглашением, зафиксированным в кодовой таблице.
В кодовой таблице символов каждой букве, цифре, служебному знаку присвоен какой-либо код – десятичное число от 0 до 255 (больше нельзя, т.к. уже 256 не умещается в 1 байт). Таким образом, можно закодировать ровно 256 символов. В различных кодировках одному и тому же двоичному коду соответствуют различные символы. Поэтому каждая кодировка задается своей собственной кодовой таблицей. При работе в приложениях Windows предусмотрена возможность автоматической перекодировки документов, созданных приложениями MS-DOS.
Кодовая таблица – это внутреннее представление символов в машине.
Кроме алфавитно-цифровых символов, отображаемых на экране и бумаге, нужно иметь также группу кодов, которые предназначены для управления программно-аппаратными компонентами машины.
Таблицы с кодами 128-255, которые используются в DOS и Windows, называются кодовыми страницами(Code page, CP).
Кодовая страница содержит таблицу кодов (ASCII), состоящую из двух половин: 0-127 – стандартные символы, обязательные для каждой страны, 128-255 – национальные символы (например, кодовая страница с № 866 содержит русские алфавит и символы, т.е. кириллицу).
Стандарт ASCII. Во всем мире в качестве стандарта принята таблица ASCII (American Standard Code for Information Interchange), кодирующая ровно половину возможных символов от 0 до 127. Вторая половина кодовой таблицы (от 128 до 255) не определена американскими стандартами и предназначена для размещения символов национальных алфавитов (в частности, кириллицы), псевдографических символов, некоторых математических знаков. В разных странах, на разных ПК, в разных ОС используются разные варианты второй половины кодовой таблицы (их называют расширениями ASCII).
CP866 и СР-1251. В DOS для русского языка используется страница СР-866, которая содержит кириллицу, в Windows аналогично – СР-1251. В СР-1251 нет псевдографических символов (т.к. в графической ОС они не нужны).
Для русского языка существуют и другие таблицы, которые редко применяются. В настоящее время существуют 5 различных кодовых таблиц для русских букв (СР-866, СР-1251, КОИ–8, Мас, ISO 8859-5), поэтому тексты, созданные в одной кодировке, не будут аналогично отображаться в другой. В Интернете широко используется таблица КОИ–8 (код для обмена информацией 8-битный), так же она применяется на компьютерах с ОС UNIX. Для компьютеров Macintosh фирма Apple разработала свою кодировку русских букв (Мас). Международная организация по стандартизации утвердила в качестве стандарта для русского языка кодировку, называемую ISO 8859-5.
Unicode. Общим недостатком всех однообразных таблиц является отсутствие в коде символа какой-либо информации о номере страницы. Программа, получив на входе набор символов, воспроизводит его по своему усмотрению, не интересуясь его происхождением. Например, DOS, получив два символа с кодами 224 и 227, обращается к таблице 866 и воспроизводит их как «ру». Однако, если эти символы набирались в Windows, они означают – «аг». Поэтому международным сообществом фирм Unicode предложена в качестве стандарта другая система кодировки символов. В этой системе для представления одного символа используются 2 байта (16 битов), это позволяет закодировать не 256, а 216 различных символов и включать в код символа информацию о том, какому языку принадлежит символ и как его воспроизводить. Правда, объем текстовой информации увеличивается вдвое. Эту кодировку поддерживает платформа Microsoft Windows Office 97.
Особенности кодовых страниц:
1) Первые 33 символа (0-32) являются управляющими и предназначены, в основном, для передачи команд управления печатным устройствам. Примеры: код 7 – звонок – звуковой сигнал (ошибка); код 13 – возврат каретки – при нажатии клавиши Enter; код 10 – новая строка – принтер переходит на новую строку; код 27 – Esc – завершение, отмена работы.
2) 33 – 47 – служебные символы: пробел, знаки препинания, скобки, кавычки и т.п.
3) 48 – 57 – арабские цифры (0-9);
4) 65 – 90 – прописные буквы латинского алфавита от A до Z; 97 – 122–строчные буквы латинского алфавиты от a до z; русские символы – во второй половине таблицы.
5) Во второй половине страницы 866 так же размещены 3 группы специальных символов: а) символы заполнители, штриховка (176-178 и 219-223); б) псевдографические символы (179-218), для рисования рамок и т.п.; в) дополнительные математические знаки: и т.п. (240-254).
Дата добавления: 2016-02-13; просмотров: 1581;