Представление текстовых данных

Все используемые способы представления текстовых данных сводятся к нумерации символов алфавита (или аналогичных, например, иероглифов). Способ нумерации называется кодировкой, а числа – кодами символов. Самая распостраненная система кодировки ASCII (American Standard Code for Information Interchange – Американский стандартный код обмена информацией) использует 7 бит на символ (128 символов). Поскольку код представляется байтовым числом (максимальное количество цифр 256), то оставшиеся 128 символов используются для кодировки символов национальных алфавитов. Для тех алфавитов, где этого количества недостаточно (например, для иероглифов), используется кодировка двумя байтами – DBCS (Double Byte Character Set). Попытка стандартизировать данное представление в форме двух байт – Unicode – пока не имеет полного успеха.

Для латиницы используются в основном две кодировки – ASCII и EBCDIC (Extended Binary Coded Decimal Information Code). Для представления русского варианта кириллицы существует три основных кодировки: альтернативная (cp866), cp1251 (используется в Windows) и KOI-8.

Часто в текстовом документе хранится информация о типе кодировки и языке. Это позволит в ряде случаев правильно воспроизвести документ на другой машине. При использовании ряда редакторов текста в документе кроме самих кодов символов находится информация о параметрах страниц, абзацев, системная, графическая, команды редакторов и прочая информация. Так хранит информацию, например, такой редактор, как WinWord.








Дата добавления: 2015-09-29; просмотров: 480;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.