КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.

Кодирование символа – это присвоение символу конкретного числового кода.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование. Т.е. кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.

Код символа хранится в оперативной памяти компьютера. В процессе вывода символа на экран производится обратная операция – декодирование, т.е. преобразование кода символа в его изображение.

Как правило, для хранения кода символа используется 1 байт (8 бит), поэтому коды символов могут принимать значения от 0 до 255. Такие кодировки называют однобайтными. Они позволяют использовать 256 символов (N=2^I=2⁸=256).

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Алфавит компьютера включает в себя 256 символов, каждый символ занимает 1 байт памяти.

Поскольку всякая информация представляется в памяти ЭВМ в двоичном виде, следовательно, каждый символ представляется 8-разрядным двоичным кодом. Удобство побайтового кодирования символов очевидно, поскольку байт – наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста.

Таблица кодировки – это стандарт, ставящий в соответствие каждому символу алфавита свой порядковый номер. В этом и заключается правило цифрового представления символов. Наименьший номер – 0, наибольший – 255. Двоичный код символа – это его порядковый номер в двоичной системе счисления. Таким образом, таблица кодировки устанавливает связь между внешним символьным алфавитом компьютера и внутренним двоичным представлением.

Таблица однобайтных кодов символов называется ASCII (American Standart Code for Information Interchange –Американский стандартный код для обмена информацией).Таблица кода ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы (т.е. символы с номерами от 0 до 127), которая содержит: коды управляющих символов, коды цифр, арифметических операций, знаков препинания, некоторые специальные символы, коды больших и маленьких букв.

Вторая часть таблицы ASCII (коды от 128 до 255) бывает различной в разных компьютерах. Она содержит коды букв национального алфавита, коды некоторых математических символов и коды символов псевдографики. Для русских букв в настоящее время имеется 5 различных кодовых таблиц: КОИ-8, Mac, Windows-1251, ISO, CP866.

На практике можно встретиться и с другой таблицей – КОИ-8 (Код Обмена Информацией), которая используется, например, в глобальных компьютерных сетях, на ЭВМ, работающих под управлением операционной системы Unix.

Введен новый международный стандарт Unicode. Это 16-разрядная кодировка, т.е. в ней отводится по 2 байта для кодирования символа, поэтому с его помощью можно закодировать 65536 различных символов (N=2¹⁶=65536). Коды символов могут принимать значения от 0 до 65535.

Дата добавления: 2016-10-17; просмотров: 1989;