Кодирование информации
3.3.1. Системы кодирования
Под кодированием понимается процесс присвоения условных обозначений (кодов) признакам объектов. Кодирование используется для представления информации в ЭВМ при хранении, передаче и обработке. Вопросам кодирования, связанным с хранением и передачей информации (представление в ЭВМ, шифрование, сжатие, помехозащищённость), посвящены соответствующие разделы теории информации.
Здесь же рассматриваются основы кодирования, связанного с обработкой информации. Цель такого кодирования – обеспечение более удобной и эффективной обработки информации (путём представления информации в соответствующей форме). Система кодирования – совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, который может состоять из букв, цифр и других символов. Наибольшее распространение при обработке информации с помощью ЭВМ получили цифровые коды. Код характеризуется длиной, структурой и степенью информативности. Длина – количество позиций (знаков, разрядов) в коде. Структура – порядок расположения в коде символов, используемых для обозначения классификационного признака. Степень информативности – отношение числа закодированных признаков к длине кода.
К системам кодирования предъявляются следующие требования:
- идентификация каждого объекта кодируемого множества;
- отображение необходимой информации об объектах;
- достаточная гибкость и резерв кодовых обозначений при минимальной длине кода;
- ориентация на автоматическую обработку информации, возможность обнаружения ошибок.
Существующие системы кодирования информации можно разбить на два основных вида (рис. 3.3):
- регистрационные системы кодирования, не требующие предварительной классификации объектов;
- классификационные системы кодирования, ориентированные на проведение предварительной классификации объектов.
Регистрационное кодирование, в свою очередь, может быть представлено порядковой и серийно-порядковой системами, а классификационное – последовательной и параллельной системами. Каждая из них имеет преимущества и недостатки, поэтому в зависимости от конкретных обстоятельств и целей необходимо выбирать наиболее рациональную систему.
Рис. 3.3. Классификация основных систем кодирования
Особо следует выделить комбинированные системы кодирования, представляющие собой сочетание нескольких различных систем кодирования. Они используются для кодирования больших номенклатур объектов, которые можно группировать по нескольким соподчинённым или независимым признакам. Комбинированные системы кодирования дают возможность получить более информативный код.
3.3.2. Порядковое кодирование
Порядковая система кодирования не требует предварительной классификации объектов и основана на наиболее простом методе. Его суть заключается в последовательной нумерации объектов натуральными числами. Таким образом, каждый объект идентифицируется регистрационным номером. Объекты при регистрации могут располагаться как случайно, так и в определённом порядке, например алфавитном (список студентов группы) или хронологическом (журнал регистрации событий).
Количество объектов номенклатуры N, которое может быть закодировано с помощью порядковой системы, зависит от количества символов А, составляющих алфавит кода, и длины кодового обозначения l (количества знаков в коде), что выражается формулой N=Аl. Например, с использованием алфавита из десяти цифр и трёхзначного кода можно закодировать 103, то есть 1000 объектов (от 000 до 999).
Достоинствами порядковой системы являются простота кодирования и минимальная длина кода. Долговечность порядкового кода практически всегда достигается за счёт незначительной избыточности, так как добавление только одного разряда увеличивает ёмкость кода вА раз.
Недостатком порядковой системы кодирования является отсутствие в коде информации о свойствах объектов (даже зная, что список группы составляется в лексикографическом порядке, мы не можем по номеру с полной уверенностью назвать начальную букву фамилии, так как все студенты могут оказаться Ивановыми).
3.3.3. Серийно-порядковое кодирование
Используемый в серийно-порядковой системе метод отличается от порядкового кодирования тем, что объекты предварительно разбиваются на подмножества, а порядковые номера – на серии. Элементы каждого подмножества регистрируются в пределах отведённой для него серии номеров. В каждой серии обычно предусматриваются резервные номера (на случай появления новых позиций).
По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Обычно применяется в тех случаях, когда деление на подмножества осуществляется только по одному классификационному признаку, а их количество невелико.
Пример.Для нумерации аудиторий некоего вуза, размещённого в четырёх небольших близкорасположенных зданиях, имеющих по 20 используемых для занятий помещений, можно использовать четыре серии по 25 номеров (00–24; 25–49; 50–74; 75–99). При этом в каждой серии остаётся резерв из пяти номеров (на случай перепланировки), а длина кода аудитории остаётся прежней – двузначной. Другой пример: использование «нечётной» серии для нумерации почтовых адресов домов, расположенных на левой, а «чётной» – на правой стороне улицы.
Серийно-порядковой системе присущи в основном те же достоинства и недостатки, что и порядковому кодированию. Но здесь коды, помимо идентификации объекта, несут некоторую дополнительную информацию, хотя её восприятие человеком может быть затруднено. Резервирование, с одной стороны, является достоинством, обеспечивающим некоторую долговечность кода, а с другой – серийно-порядковая система может стать непригодной из-за переполнения только одной серии, при этом резервы других серий ещё не будут исчерпаны. Поэтому серийно-порядковый код в сравнении с порядковым оказывается менее долговечным и более избыточным.
3.3.4. Последовательное кодирование
Последовательное кодирование, как и параллельное (рис. 3.3), требует проведения предварительной классификации кодируемых объектов. Классификационные системы кодирования называются также позиционными, так как для выражения каждого классификационного признака в структуре кода выделяется позиция (группа символов) из одного или нескольких разрядов.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, а после код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. При этом значение характеристики объекта, выраженного каким-либо числом на определённой позиции, зависит от конкретного значения предыдущих разрядов кодовой комбинации (за исключением разрядов старшей группировки).
Пример. Проведём кодирование информации, классифицированной с помощью двухуровневой иерархической схемы (рис. 3.3). Количество позиций определяется глубиной классификации и равно двум. Присвоим на каждом уровне код «Л» для левых группировок (Регистрационные, Порядковая, Последовательная), «П» – для правых (Классификационные, Серийно-порядковая, Параллельная). Структура кода задаётся последовательностью «ХY», где «Х» – код группировки первого уровня, «Y» – второго. Теперь легко получить коды всех группировок второго уровня:
- ЛЛ – (Система кодирования) Регистрационная, Порядковая;
- ЛП – Регистрационная, Серийно-порядковая;
- ПЛ – Классификационная, Последовательная;
- ПП – Классификационная, Параллельная.
Следует обратить внимание на то, что символ «Л» в позиции «Х» имеет значение – «Регистрационные», а значение этого же символа, но расположенного в позиции «Y», уже зависит от предыдущего знака (ЛЛ – Порядковая, а ПЛ – Последовательная). То есть извлечение информации из кода (как и кодирование) осуществляется последовательно: сначала определяется значение признака, соответствующего первому уровню, а только потом – второму.
Последовательная система кодирования обладает теми же основными достоинствами и недостатками, что и иерархическая система классификации. Если же сравнивать с порядковой системой, то представление дополнительной информации достигается за счёт увеличения длины и избыточности кода.
3.3.5. Параллельное кодирование
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга (параллельно, одновременно); для каждого фасета в структуре кода определяется позиция из одного или нескольких разрядов.
Параллельная система кодирования обладает основными достоинствами и недостатками, присущими фасетной системе классификации. Однако параллельный код оказывается ещё более избыточным, чем последовательный, так как на практике многие сочетания признаков могут вообще не существовать и, следовательно, ёмкость кода будет использоваться не полностью.
Пример. Проведём кодирование сведений, представленных на рисунке 3.2. фасетами «Направление», «Форма обучения», «Курс». Количество кодовых группировок определяется количеством фасетов и равно трём. Для кодирования фасетов следует проанализировать их номенклатуру и выбрать наиболее рациональный метод, учитывая предъявляемые к системам кодирования требования.
Для использования в процессе автоматизированной обработки и обмена информацией на всех установленных государством образовательных уровнях в Российской Федерации с охватом как государственных, так и негосударственных образовательных учреждений предназначен Общероссийский классификатор специальностей по образованию (ОКСО). Но в учебных целях рассматриваемого примера (удобство восприятия, понимание) можно закодировать каждое направление первыми тремя буквами его наименования. Для кодирования фасета «Форма обучения» будем использовать первую букву значения, а для номера курса – соответствующую десятичную цифру.
Структуру полученного кода можно выразить записью «ННН Ф К», где ННН – присвоенный нами код направления; Ф – код формы обучения, К – курс. В отличие от последовательного кодирования, порядок (очерёдность) кодирования фасетов значения не имеет. Поэтому по обозначению «Сер О 2» мы независимо от других позиций можем определить и направление – Сервис; и форму обучения – очная; и курс – второй.
3.3.6. Штриховое кодирование
В настоящее время для автоматической идентификации признаков объектов широко используется штриховое кодирование, основанное на оптическом считывании информации различными техническими устройствами – сканерами штрих-кода. В качестве примера можно привести такие широко известные штриховые коды, как:
- UРC (Universal Product Code) – универсальный товарный код, разработанный в США;
- EAN (European Article Number) – европейский товарный код, созданный на базе UРC;
Опуская особенности преобразования штрихового года в цифровой, рассмотрим подробнее структуру широко распространённого в России товарного кода EAN-13. Он состоит из тринадцати цифр, которые можно разделить на четыре части:
- первые три цифры обозначают код страны-производителя (точнее – код регионального представителя глобальной организации по стандартизации). Но некоторые коды имеют специальное значение. Так, использование кодов, начинающихся с цифры 2, разрешено для внутренних целей любого предприятия, но запрещено за его пределами (применяется, например, для весового товара при розничной торговле);
- следующие четыре цифры (в России начиная с 2000 г. – шесть) – код предприятия-производителя для данной страны;
- следующие пять цифр (в России – три) – код продукта, устанавливаемый предприятием-производителем;
- последняя цифра является контрольной.
Таким образом, в основе кода EAN-13 лежит последовательная система кодирования, так как определение значения второй части кода возможно только после определения первой, а третьей – после второй. При этом в первой части кода используется серийно-порядковое кодирование, так как, например, России соответствует серия 460–469.
Дата добавления: 2015-08-26; просмотров: 2095;