Кодирование информации
1.3.1 Системы кодирования
Под кодированием понимается процесс присвоения условных обозначений (кодов) признакам объектов. Кодирование используется для представления информации в ЭВМ при хранении, передаче и обработке. Вопросам кодирования, связанным с хранением и передачей информации (представление в ЭВМ, шифрование, сжатие, помехозащищённость), посвящены соответствующие разделы теории информации.
Здесь же рассматриваются основы кодирования, связанного с обработкой информации. Цель такого кодирования – обеспечение более удобной и эффективной обработки информации (путём представления информации в соответствующей форме). Система кодирования – совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, который может состоять из букв, цифр и других символов. Наибольшее распространение при обработке информации с помощью ЭВМ получили цифровые коды. Код характеризуется длиной, структурой и степенью информативности. Длина – количество позиций (знаков, разрядов) в коде. Структура – порядок расположения в коде символов, используемых для обозначения классификационного признака. Степень информативности – отношение числа закодированных признаков к длине кода.
К системам кодирования предъявляются следующие требования:
- идентификация каждого объекта кодируемого множества;
- отображение необходимой информации об объектах;
- достаточная гибкость и резерв кодовых обозначений при минимальной длине кода;
- ориентация на автоматическую обработку информации, возможность обнаружения ошибок.
Существующие системы кодирования информации можно разбить на два основных вида (рис. 3.3):
- регистрационные системы кодирования, не требующие предварительной классификации объектов;
- классификационные системы кодирования, ориентированные на проведение предварительной классификации объектов.
Регистрационное кодирование, в свою очередь, может быть представлено порядковой и серийно-порядковой системами, а классификационное – последовательной и параллельной системами. Каждая из них имеет преимущества и недостатки, поэтому в зависимости от конкретных обстоятельств и целей необходимо выбирать наиболее рациональную систему.
Рис. 3.3. Классификация основных систем кодирования
Особо следует выделить комбинированные системы кодирования, представляющие собой сочетание нескольких различных систем кодирования. Они используются для кодирования больших номенклатур объектов, которые можно группировать по нескольким соподчинённым или независимым признакам. Комбинированные системы кодирования дают возможность получить более информативный код.
1.3.2 Порядковое кодирование
Порядковая система кодирования не требует предварительной классификации объектов и основана на наиболее простом методе. Его суть заключается в последовательной нумерации объектов натуральными числами. Таким образом, каждый объект идентифицируется регистрационным номером. Объекты при регистрации могут располагаться как случайно, так и в определённом порядке, например алфавитном (список студентов группы) или хронологическом (журнал регистрации событий).
Количество объектов номенклатуры N, которое может быть закодировано с помощью порядковой системы, зависит от количества символов А, составляющих алфавит кода, и длины кодового обозначения l (количества знаков в коде), что выражается формулой N=Аl. Например, с использованием алфавита из десяти цифр и трёхзначного кода можно закодировать 103, то есть 1000 объектов (от 000 до 999).
Достоинствами порядковой системы являются простота кодирования и минимальная длина кода. Долговечность порядкового кода практически всегда достигается за счёт незначительной избыточности, так как добавление только одного разряда увеличивает ёмкость кода вА раз.
Недостатком порядковой системы кодирования является отсутствие в коде информации о свойствах объектов (даже зная, что список группы составляется в лексикографическом порядке, мы не можем по номеру с полной уверенностью назвать начальную букву фамилии, так как все студенты могут оказаться Ивановыми).
1.3.3 Серийно-порядковое кодирование
Используемый в серийно-порядковой системе метод отличается от порядкового кодирования тем, что объекты предварительно разбиваются на подмножества, а порядковые номера – на серии. Элементы каждого подмножества регистрируются в пределах отведённой для него серии номеров. В каждой серии обычно предусматриваются резервные номера (на случай появления новых позиций).
По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Обычно применяется в тех случаях, когда деление на подмножества осуществляется только по одному классификационному признаку, а их количество невелико.
Пример.Для нумерации аудиторий некоего вуза, размещённого в четырёх небольших близкорасположенных зданиях, имеющих по 20 используемых для занятий помещений, можно использовать четыре серии по 25 номеров (00–24; 25–49; 50–74; 75–99). При этом в каждой серии остаётся резерв из пяти номеров (на случай перепланировки), а длина кода аудитории остаётся прежней – двузначной. Другой пример: использование «нечётной» серии для нумерации почтовых адресов домов, расположенных на левой, а «чётной» – на правой стороне улицы.
Серийно-порядковой системе присущи в основном те же достоинства и недостатки, что и порядковому кодированию. Но здесь коды, помимо идентификации объекта, несут некоторую дополнительную информацию, хотя её восприятие человеком может быть затруднено. Резервирование, с одной стороны, является достоинством, обеспечивающим некоторую долговечность кода, а с другой – серийно-порядковая система может стать непригодной из-за переполнения только одной серии, при этом резервы других серий ещё не будут исчерпаны. Поэтому серийно-порядковый код в сравнении с порядковым оказывается менее долговечным и более избыточным.
1.3.4 Последовательное кодирование
Последовательное кодирование, как и параллельное (рис. 3.3), требует проведения предварительной классификации кодируемых объектов. Классификационные системы кодирования называются также позиционными, так как для выражения каждого классификационного признака в структуре кода выделяется позиция (группа символов) из одного или нескольких разрядов.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, а после код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. При этом значение характеристики объекта, выраженного каким-либо числом на определённой позиции, зависит от конкретного значения предыдущих разрядов кодовой комбинации (за исключением разрядов старшей группировки).
Пример. Проведём кодирование информации, классифицированной с помощью двухуровневой иерархической схемы (рис. 3.3). Количество позиций определяется глубиной классификации и равно двум. Присвоим на каждом уровне код «Л» для левых группировок (Регистрационные, Порядковая, Последовательная), «П» – для правых (Классификационные, Серийно-порядковая, Параллельная). Структура кода задаётся последовательностью «ХY», где «Х» – код группировки первого уровня, «Y» – второго. Теперь легко получить коды всех группировок второго уровня:
- ЛЛ – (Система кодирования) Регистрационная, Порядковая;
- ЛП – Регистрационная, Серийно-порядковая;
- ПЛ – Классификационная, Последовательная;
- ПП – Классификационная, Параллельная.
Следует обратить внимание на то, что символ «Л» в позиции «Х» имеет значение – «Регистрационные», а значение этого же символа, но расположенного в позиции «Y», уже зависит от предыдущего знака (ЛЛ – Порядковая, а ПЛ – Последовательная). То есть извлечение информации из кода (как и кодирование) осуществляется последовательно: сначала определяется значение признака, соответствующего первому уровню, а только потом – второму.
Последовательная система кодирования обладает теми же основными достоинствами и недостатками, что и иерархическая система классификации. Если же сравнивать с порядковой системой, то представление дополнительной информации достигается за счёт увеличения длины и избыточности кода.
1.3.5 Параллельное кодирование
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга (параллельно, одновременно); для каждого фасета в структуре кода определяется позиция из одного или нескольких разрядов.
Параллельная система кодирования обладает основными достоинствами и недостатками, присущими фасетной системе классификации. Однако параллельный код оказывается ещё более избыточным, чем последовательный, так как на практике многие сочетания признаков могут вообще не существовать и, следовательно, ёмкость кода будет использоваться не полностью.
Пример. Проведём кодирование сведений, представленных на рисунке 3.2. фасетами «Направление», «Форма обучения», «Курс». Количество кодовых группировок определяется количеством фасетов и равно трём. Для кодирования фасетов следует проанализировать их номенклатуру и выбрать наиболее рациональный метод, учитывая предъявляемые к системам кодирования требования.
Для использования в процессе автоматизированной обработки и обмена информацией на всех установленных государством образовательных уровнях в Российской Федерации с охватом как государственных, так и негосударственных образовательных учреждений предназначен Общероссийский классификатор специальностей по образованию (ОКСО). Но в учебных целях рассматриваемого примера (удобство восприятия, понимание) можно закодировать каждое направление первыми тремя буквами его наименования. Для кодирования фасета «Форма обучения» будем использовать первую букву значения, а для номера курса – соответствующую десятичную цифру.
Структуру полученного кода можно выразить записью «ННН Ф К», где ННН – присвоенный нами код направления; Ф – код формы обучения, К – курс. В отличие от последовательного кодирования, порядок (очерёдность) кодирования фасетов значения не имеет. Поэтому по обозначению «Сер О 2» мы независимо от других позиций можем определить и направление – Сервис; и форму обучения – очная; и курс – второй.
1.3.6 Штриховое кодирование
В настоящее время для автоматической идентификации признаков объектов широко используется штриховое кодирование, основанное на оптическом считывании информации различными техническими устройствами – сканерами штрих-кода. В качестве примера можно привести такие широко известные штриховые коды, как:
- UРC (Universal Product Code) – универсальный товарный код, разработанный в США;
- EAN (European Article Number) – европейский товарный код, созданный на базе UРC;
Опуская особенности преобразования штрихового года в цифровой, рассмотрим подробнее структуру широко распространённого в России товарного кода EAN-13. Он состоит из тринадцати цифр, которые можно разделить на четыре части:
- первые три цифры обозначают код страны-производителя (точнее – код регионального представителя глобальной организации по стандартизации). Но некоторые коды имеют специальное значение. Так, использование кодов, начинающихся с цифры 2, разрешено для внутренних целей любого предприятия, но запрещено за его пределами (применяется, например, для весового товара при розничной торговле);
- следующие четыре цифры (в России начиная с 2000 г. – шесть) – код предприятия-производителя для данной страны;
- следующие пять цифр (в России – три) – код продукта, устанавливаемый предприятием-производителем;
- последняя цифра является контрольной.
Таким образом, в основе кода EAN-13 лежит последовательная система кодирования, так как определение значения второй части кода возможно только после определения первой, а третьей – после второй. При этом в первой части кода используется серийно-порядковое кодирование, так как, например, России соответствует серия 460–469.
Классификаторы
Для обеспечения взаимодействия различных ИС и сопоставимости получаемой из них информации осуществляется разработка и внедрение классификаторов, представляющих собой систематизированную совокупность наименований и кодов классификационных группировок. В зависимости от применения классификаторы можно разделить на следующие группы:
- общероссийские, используемые во всех секторах экономики;
- классификаторы, используемые в пределах определённого сектора экономики;
- локальные, используемые в пределах отдельных предприятий и организаций.
В любой стране разработаны и применяются государственные и отраслевые классификаторы. Например, классифицированы отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д. С целью обеспечения совместимости государственных информационных систем и ресурсов, создаваемых на федеральном и региональном уровнях управления в Российской Федерации разработан Общероссийский классификатор информации об общероссийских классификаторах (ОКОК).
Все общероссийские классификаторы являются составной частью Единой системы классификации и кодирования технико-экономической и социальной информации (ЕСКК ТЭИ), используемой в различных ИС, и их применение в формах первичных документов, а также при обработке информации средствами вычислительной техники, является обязательным условием для предприятий, организаций и фирм всех секторов экономики.
Практически любое юридическое лицо так или иначе использует общероссийские классификаторы органов власти и управления (ОКОГУ), территорий (ОКАТО), видов экономической деятельности (ОКВЭД), форм собственности (ОКФС), организационно-правовых форм (ОКОПФ).
Рассмотрим в качестве примера общероссийский классификатор услуг населению (ОКУН), утверждённый Постановлением Госстандарта РФ от 28 июня 1993 г. № 163 (в редакции изменений 12/2010, утверждённых Приказом Росстандарта от 23.12.2010 № 1072-ст).
Этот классификатор разработан для решения задач развития и совершенствования стандартизации в сфере услуг населению; осуществления сертификации услуг с целью обеспечения безопасности жизни, здоровья потребителей и охраны окружающей среды, предотвращения причинения вреда имуществу потребителей; повышения эффективности применения средств вычислительной техники; учёта и прогнозирования объёмов реализации услуг населению; изучения спроса населения на услуги; предоставления услуг населению предприятиями и организациями различных организационно-правовых форм собственности и гражданами-индивидуа-лами; гармонизации классификации услуг населению с международными классификациями; актуализации видов услуг с учётом новых социально-экономических условий в Российской Федерации.
Объектами классификации являются услуги населению, оказываемые предприятиями и организациями различных организационно-пра-вовых форм собственности и гражданами-индивидуалами, использующими различные формы и методы обслуживания.
Для классификатора услуг населению принята иерархическая классификация с делением всего классификационного множества объектов на группы. Затем каждую группу делят на подгруппы, которые в свою очередь делят на виды деятельности по целевому функциональному назначению. В ОКУН используют последовательную систему кодирования.
Кодовое обозначение объекта классификации включает шесть цифровых десятичных знаков (ГГПВУУ) и контрольное число (К). Общая структура кодового обозначения классификатора услуг населению представлена следующей схемой:
ГГ П В УУ К
─┬─ ─┬─ ─┬─ ─┬─ ─┬─
Группа │ │ │ │ │
────────────────────┘ │ │ │ │
Подгруппа │ │ │ │
─────────────────────────┘ │ │ │
Вид │ │ │
──────────────────────────────┘ │ │
Услуга │ │
───────────────────────────────────┘ │
Контрольное число │
────────────────────────────────────────┘
Перечислим группы, которые включает классификатор:
01 – бытовые услуги;
02 – услуги пассажирского транспорта;
03 – услуги связи;
04 – жилищно-коммунальные услуги;
05 – услуги учреждений культуры;
06 – туристские и экскурсионные услуги;
07 – услуги физической культуры и спорта;
08 – медицинские услуги, санаторно-оздоровительные услуги, ветеринарные услуги;
09 – услуги правового характера;
10 – услуги банков;
11 – услуги в системе образования;
12 – услуги торговли и общественного питания, услуги рынков;
80 – прочие услуги населению.
Для лучшего понимания рассмотрим формирование по ОКУН кода, например, 804903 8, которым обозначаются консультативные услуги, связанные с установкой вычислительной техники. Число 80 в первой позиции кода соответствует группе «Прочие услуги населению»; 4 (в следующей позиции) – подгруппе «Услуги по работе на вычислительной технике и связанное с этим обслуживание»; 9 – виду «Прочие услуги, связанные с вычислительной техникой»; 03 – наименованию «Консультативные услуги, связанные с установкой вычислительной техники»; 8 – контрольное число для данного наименования услуги.
Вопросы для самоконтроля
1. Дайте определение понятий «классификация», «кодирование», «классификатор».
2. Назовите известные методы классификации.
3. Перечислите основные достоинства и недостатки иерархической и фасетной систем классификации.
4. Какие системы кодирования информации используются при классификации?
5. Какие существуют группы классификаторов? Назовите классификаторы, используемые в сфере сервиса.
Дата добавления: 2015-10-26; просмотров: 8484;