Кодирование текстовой информации. Двоичное кодирование текстовой информации. Различные кодировки кириллицы
Первые компьютеры были созданы для обработки числовой информации. Начиная с конца 60-х годов XX века, компьютеры стали использовать для обработки текстовой информации. В настоящее время практически все пользователи персональных компьютеров работают с текстами, используя специальные программы — текстовые редакторы.
Человек различает символы по их начертанию, а компьютер — по их кодам. В мире в качестве стандарта кодирования символьной информации принята таблица ASCII (American Standard Code for Interchange). В ней для кодирования одного символа используется количество информации, равное 1 байту (8 битов). Всего с помощью одного байта можно закодировать: N = 28 = 256 символов. Этого вполне достаточно для представления текстовой информации на компьютере. Таблица разделена на две части по 128 символов. Первая (основная) часть содержит буквы латинского алфавита, десятичные цифры, знаки пунктуации, арифметических действий и др. Вторая часть (расширение) предназначена, в основном, для кодирования национальных алфавитов. Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) обозначают не символы, а операции (новая строка — код 10, возврат каретки — код 13, ввод пробела — код 32, и т. д.).
В настоящее время существует пять различных кодовых таблиц для русских букв: КОИ-8, СР1251 (для Windows), СР866 (ASCII, MS DOS), Mac (для Macintosh), ISO (International Standards Organization, код, используемый в языке HTML). Такое количество кодировок затрудняет чтение текстов в Интернете и отображение в тестовых редакторах. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Например, в ASCII русская буква А имеет код — 10000000, КОИ-8 — 11100001,СР1251 — 11000000.
Для того чтобы правильно прочесть текст, присланный в другой кодировке, необходимо:
• в текстовом редакторе Microsoft Word в меню Сервис, Параметры, Общиеактивизировать флажок подтверждать преобразование при открытии,выбрать нужную кодировку;
• при работе в браузере, например IE, в меню Вид, Вид кодировкивыбрать нужную кодировку.
При вводе в компьютер текстовой информации происходит ее двоичное кодирование. Пользователь нажимает на клавиатуре клавишу с символом — ив компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера. В процессе вывода символа на экран монитора производится обратный процесс — декодирование, т. е. преобразование кода символа в его изображение, которое хранится в памяти компьютера.
Новый международный стандарт Unicode (Юникод) отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 216 = = 65 536. Кодировка Unicode поддерживает все знаки всех языков и пригодна для чтения в Microsoft Internet Explorer, начиная с версии 4.0, и Microsoft Office с 1997 г.
Дата добавления: 2016-02-16; просмотров: 1683;