Представление символьных и текстовых данных

Тесты являются важнейшим источником информации. Именно такой характер имеют экономические, плановые, учетные данные, представленные на естественном или искусственном языке. Каждый язык использует свою знаковую систему, основанную на алфавите. Письменность можно рассматривать как метод представления на материальных носителях знаков звуковой системы разговорного языка.

Рассмотрим, как кодируются символы, элементы текстов, текстовые документы.

Символы. Двоичное кодирование символьных данных производится заданием кодовых таблиц, согласно которым каждому символу ставят в соответствие одно – или двухбайтовый код. Помимо этого, кодовая таблица ставит в соответствие кодам клавиши на клавиатуре и начертание символа на кране монитора.

Кодовые таблицы разрабатывались в разных странах в разные времена. Поэтому, как правило, в одном языке существуют несколько кодовых таблиц, что осложняет обратную задачу интерпретации кодов.

Наиболее популярная таблица ASCII разработана институтом стандартизации США в 1981 г. Ее использовали, в частности, программные продукты, работающие под управлением ОС MS DOS. Для представления одного символа используется один байт (8 бит), т.е. кодовая таблица описывает 28 = 256 различных кодов.

Коды с 0 до 127 составляют базовую таблицу; коды со 128 по 255 – расширенную (дополнительную) таблицу.

В основной таблице располагаются управляющие команды для принтеров (коды 0 – 31 «перевод строки», «возврат каретки», им не соответствуют символы), затем спец. символы, знаки арифметических действий и знаки препинания, цифры, латинские буквы – прописные и строчные.

Дополнительная таблица отдана национальным алфавитам, символам псевдографики (с помощью которых форматируются таблицы).

Позднее, при разработке ОС Windows, была создана кодовая таблица Windows – 1251, в которой базовая таблица осталась прежней, а расширенная изменилась. В целом, существование в нашей стране нескольких кодовых таблиц порождает задачу межсистемного преобразования данных.

Во многих странах Азии 256 кодов явно не хватает. В 1991 г. производители программных продуктов (Microsoft, IBM, Apple) и стандартизаторы пришли к соглашению о выработке единого стандарта ISO 10646-1 ( он же Unicode 3.0). Код построен по 31-битной схеме, но используются только два байта для кодирования одного символа. Два байта (16 бит) создают 216 = 65536 кодов, которые описывают цифры, буквы латинского и многих национальных алфавитов, спец. Символы, знаки арифметических операций и т.д. Все текстовые документы в этой кодировке вдвое длиннее, что сначала задерживало ее внедрение, но современных уровень технических средств дает такую возможность. В настоящее время, текстовый процессор Word, начиная с версии Word 8.0 (Microsoft Office 97), использует шрифты Unicode 3.0.

Текстовые строки. Текстовая (символьная) строка – это конечная последовательность символов. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки – это количество символов в ней. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст, а затем разделитель строк.

Текстовые документы. Текстовые документы используются для хранения и обмена данными в ИС, но сплошной, не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование текста достигается форматированием – специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые вместе с основным текстом записывают в текстовом формате текстовые метки (маркеры и теги), используемые для обозначения частей документа.

 








Дата добавления: 2015-08-08; просмотров: 791;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.