Кодирование текстовой информации. Двоичное кодирование текстовой информации. Различные кодировки кириллицы

Первые компьютеры были созданы для обработки число­вой информации. Начиная с конца 60-х годов XX века, компьютеры стали использовать для обработки текстовой информации. В настоящее время практически все пользова­тели персональных компьютеров работают с текстами, испо­льзуя специальные программы — текстовые редакторы.

Человек различает символы по их начертанию, а компью­тер — по их кодам. В мире в качестве стандарта кодирова­ния символьной информации принята таблица ASCII (Ame­rican Standard Code for Interchange). В ней для кодирования одного символа используется количество информации, рав­ное 1 байту (8 битов). Всего с помощью одного байта можно закодировать: N = 28 = 256 символов. Этого вполне доста­точно для представления текстовой информации на компью­тере. Таблица разделена на две части по 128 символов. Пер­вая (основная) часть содержит буквы латинского алфавита, десятичные цифры, знаки пунктуации, арифметических действий и др. Вторая часть (расширение) предназначена, в основном, для кодирования национальных алфавитов. Ко­дирование заключается в том, что каждому символу ставит­ся в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Присвоение символу конкретного кода — это во­прос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) обозначают не символы, а опера­ции (новая строка — код 10, возврат каретки — код 13, ввод пробела — код 32, и т. д.).

В настоящее время существует пять различных кодовых таблиц для русских букв: КОИ-8, СР1251 (для Windows), СР866 (ASCII, MS DOS), Mac (для Macintosh), ISO (Inter­national Standards Organization, код, используемый в языке HTML). Такое количество кодировок затрудняет чтение тек­стов в Интернете и отображение в тестовых редакторах. Од­ному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Например, в ASCII русская буква А имеет код — 10000000, КОИ-8 — 11100001,СР1251 — 11000000.

Для того чтобы правильно прочесть текст, присланный в другой кодировке, необходимо:

• в текстовом редакторе Microsoft Word в меню Сервис, Параметры, Общиеактивизировать флажок подтверждать преобразование при открытии,выбрать нужную кодировку;

• при работе в браузере, например IE, в меню Вид, Вид кодировкивыбрать нужную кодировку.

При вводе в компьютер текстовой информации происхо­дит ее двоичное кодирование. Пользователь нажимает на клавиатуре клавишу с символом — ив компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера. В процессе вывода симво­ла на экран монитора производится обратный процесс — де­кодирование, т. е. преобразование кода символа в его изоб­ражение, которое хранится в памяти компьютера.

Новый международный стандарт Unicode (Юникод) отво­дит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 216 = = 65 536. Кодировка Unicode поддерживает все знаки всех языков и пригодна для чтения в Microsoft Internet Explorer, начиная с версии 4.0, и Microsoft Office с 1997 г.








Дата добавления: 2016-02-16; просмотров: 1683;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.