Кодирование текстов

Для текстов применяется цифровое (табличное) кодирование. Имеется некая таблица, связывающая символ определённого языка с его порядковым номером в этой таблице. Понятно, что результат кодирования зависит от того, какая именно таблица кодирования была использована, а таблицы эти могут быть очень и очень разными. Они закреплены международными, национальными и корпоративными стандартами.

ТАБЛИЦА КОДИРОВАНИЯ ASCII

Наибольшее распространение в мире имеет система кодирования ASCII. Её название расшифровывается как American Standard Code for Information Interchange — стандартный код внутреннего информационного обмена США. Её ввёл в действие Национальный институт стандартов США (ANSI, American National Standard Institute). Строго говоря, таблица ASCII предназначена не для восьмиразрядного, а для семиразрядного кодирования 128 различных символов. Этого достаточно для представления строчных и прописных букв английского алфавита, знаков препинания, цифр и знаков математических действий. В таблице ещё остаётся 32 кода (от 0 до 31), которые не представляются никакими символами, почему их иногда называют непечатаемыми знаками. Они служат для управления техническими устройствами.

Так, например, код 10 вызывает на печатающем устройстве протяжку бумаги на одну строку и называется кодом подачи строки, а код 13 вызывает возврат печатающей головки в крайнее левое положение и называется кодом возврата каретки. Соответственно, пара этих кодов (10, 13), переданная принтеру, вызывает печать новой строки документа.

СХЕМЫ 8-РАЗРЯДНОГО КОДИРОВАНИЯ

При 8-разрядном кодировании на запись символа отводится байт, имеющий 256 различимых состояний. Это позволяет кодировать двуязычные символьные наборы. Как правило, одним из языков является английский, а вторым — какой-либо национальный европейский (русский, немецкий, французский, испанский и другие). Англоязычную часть размещают в нижней части таблицы (коды от 0 до 127), а национальную часть — в верхней (коды от 128 до 255). Нижнюю часть делают совпадающей с таблицей ASCII, а верхнюю часть государства, международные организации и отдельные корпорации закрепляют в собственных стандартах.

В России в этой области действует одновременно несколько стандартов, поэтому существуют разные схемы кодирования русскоязычных текстов, не совпадающие друг с другом. К счастью, большинство компьютерных программ позволяют выбрать ту или иную таблицу кодирования перед созданием или воспроизведением документов, однако выполнять эту настройку приходится вручную.

<36 37 383940 41 42 >

Дата добавления: 2015-08-08; просмотров: 902;