ПРИМЕЧАНИЕ------------------------------------------------------------------------------------------------------- 2 страница
О Статистическое кодирование базируется на предварительном вычислении частоты повторения одних и тех же кодов в сообщении и составлении таблицы кодирования, позволяющей оптимальным образом расположить результирующий код. Таблица кодирования в этом случае должна стать неотъемлемой частью закодированных данных (методы Хаффмена, Шэн- нона—Фэно, арифметическое кодирование).
О Словарное кодирование основано на нахождении повторяющихся последовательностей символов в сообщении (слов) и замене каждого повторяющегося слова ссылкой на его первое вхождение. В этом случае вместе с закодированным сообщением необходимо хранить (передавать) словарь. К алгоритмам словарного кодирования относятся LZ77, LZ78, LZSS, LZW.
Во многих современных программах-архиваторах применяется последовательное (двухшаговое) использование методов статистического и словарного кодирования, позволяющее достигнуть наилучшей степени сжатия данных.
□ Помехозащищенное кодирование служит для передачи данных по каналам связи и учитывает возможность возникновения помех и связанного с этим искажения или утраты части данных. При помехозащищенном кодировании избыточность не снижается, а, наоборот, увеличивается, тем самым обеспечивается возможность определения факта потери или искажения информации. Существует два основных типа помехозащищенного кодирования:
О Кодирование с фиксацией ошибок обладает сравнительно небольшой избыточностью, позволяющей зафиксировать на приемной стороне факт появления в сообщении ошибки. В случае обнаружения ошибки сообщение передается повторно.
О Кодирование с коррекцией ошибок еще более избыточно, что позволяет не только обнаружить возникшую при передаче по каналу связи ошибку, но и исправить ее. Недостатком этого вида кодирования является значительное (примерно в 3 раза) увеличение объема передаваемых данных. По этой причине оно используется гораздо реже, чем кодирование с фиксацией ошибок.
1.6. Основы классификации
и структурирования информации
Важным понятием при работе с информацией является классификация объектов. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.
Пример. Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами: • информация о студентах — в виде информационного объекта «Студент»; • информация о преподавателях — в виде информационного объекта «Преподаватель»; • информация о факультетах — в виде информационного объекта «Факультет» и т. п. |
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными (например, вес, стоимость, год), либо признаками (например, цвет, марка машины, фамилия).
Пример. Информация о каждом студенте в отделе кадров университета систематизирована и представлена посредством одинаковых реквизитов:
• фамилия, имя, отчество;
• пол;
• год рождения;
• место рождения;
• адрес проживания;
• факультет, где проходит обучение студент, и т. д.
Все перечисленные реквизиты характеризуют свойства информационного объекта «Студент».
Кроме выявления общих свойств информационного объекта, классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.
Пример. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию обо всех книгах по определенной тематике, об авторах, абонентах и т. д.
Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, прибыли, заказчиках, видах производимой продукции и т. д.
Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами.
В любой стране разработаны и применяются государственные, отраслевые и региональные классификаторы. Например, классифицированы отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т. д.
При классификации широко используются понятия «классификационный признак» и «значение классификационного признака», которые позволяют установить степень сходства или различия объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное признаком классификации. Синонимом признака классификации является основание деления.
Пример. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.
Можно в качестве признаков классификации использовать возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.
Логическим продолжением задачи классификации является задача кластеризации, которую можно воспринимать как автоматическую классификацию. Главное отличие кластеризации в том, что перечень классов (групп) и их характеристики четко не заданы и определяются в процессе работы алгоритма.
Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.
1.6.1. Иерархическая система классификации
Иерархическая система классификации (рис. 1.4) строится следующим образом:
□ исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;
□ каждый класс 1-го уровня в соответствии с характерным классификационным признаком делится на подклассы, которые образуют 2-й уровень;
□ каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т. д.
Рис. 1.4. Иерархическая система классификации |
С учетом достаточно жесткой процедуры построения структуры классификации необходимо перед началом работы определить ее цель, то есть выяснить, какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.
ВНИМАНИЕ----------------------------------------------------------------------------------------------------------
В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.
В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от
семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. •
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.
Достоинства иерархической системы классификации:
□ простота построения;
□ использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостатки иерархической системы классификации:
□ жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;
□ невозможность группировать объекты по заранее непредусмотренным сочетаниям признаков.
Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта «Факультет», которая позволила бы классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором учится студент, возрастной состав студентов, пол студента, для женщин — наличие детей.
Система классификации, представленная на рис. 1.5, будет иметь следующие уровни:
• 0-й уровень. Информационный объект «Факультет».
• 1-й уровень. Выбирается классификационный признак — название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.
• 2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных подкласса студентов.
• 3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы: мужчины и женщины.
• 4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.
Созданная иерархическая система классификации имеет глубину классификации, равную четырем.
(Факультет)
(До 20 лет) (20-30 лет) (Свыше Зо"лёт) (До 20 лет) (20-30 лет) (Свыше 30 лет) Рис. 1.5. Пример иерархической системы классификации для информационного объекта «Факультет» |
(Коммерческий) (Информационные системы)
1.6.2. Фасетная система классификации
Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Ф,) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый. Фасет специальность содержит названия специальностей. Фасет образование содержит значения: среднее, среднее специальное, высшее.
Схема построения фасетной системы классификации в виде таблицы представлена на рис. 1.6. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Фь Ф2,..., Ф„ Ф„ (например: цвет, размер одежды, вес и т. д.). Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный как Ф2, содержит значения красный, белый, зеленый, черный и желтый.
Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:
Ks = (ФЬФ2,..., Ф„ ..., Ф„) Здесь Ф, — i-й фасет; п — количество фасетов.
Фасеты
O1 |
Ф, |
Ф, |
Ф„ |
Фя
Значения фасетов
Рис. 1.6. Фасетная система классификации
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета. Достоинства фасетной системы классификации:
□ возможность достижения большой емкости классификации, то есть использования большого количества признаков классификации и их значений для создания группировок;
□ возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Пример. Вернемся к примеру из подраздела «Иерархическая система классификации» и для сопоставления разработаем фасетную систему классификации.
Сгруппируем и представим в виде таблицы (табл. 1.1) все классификационные признаки по фасетам:
• название факультета — фасет с пятью названиями факультетов;
• возраст — фасет с тремя возрастными группами;
• пол — фасет с двумя градациями;
• дети — фасет с двумя градациями.
Структурную формулу любого класса можно представить в виде.
Ks = (Факультет, Возраст, Пол, Дети). Присвоив конкретные значения каждому фасету, получим следующие классы:
• Ki = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);
• K2 = (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);
• K3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) ит. д.
Таблица 1.1. Пример фасетной системы классификации для информационного объекта «Факультет»
|
1.6.3. Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она применяется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем:
1. Отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут быть синонимы.
2. Выбранные ключевые слова и словосочетания подвергаются нормализации, то есть из совокупности синонимов выбирается один или несколько наиболее употребимых.
3. Создается словарь дескрипторов, то есть словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример. В качестве объекта классификации рассмотрим успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, поэтому указанные ключевые слова можно использовать как словарь дескрипторов.
В качестве предметной области выбираем учебную деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т. д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т. д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т. д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
□ синонимические связи указывают некоторую совокупность ключевых слов как синонимов;
□ родо-видовые связи отражают включение некоторого класса объектов в более представительный класс;
□ ассоциативные связи соединяют дескрипторы, обладающие общими свойствами.
Пример. Синонимическая связь: студент — учащийся — обучаемый. Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория.
1.6.4. Классификация информации по разным признакам
Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситуации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуальны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потребителями, для разных целей.
В табл. 1.2 приведена одна из схем классификации циркулирующей в организации (фирме) информации. В основу классификации положено пять наиболее общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция управления.
Таблица 1.2. Классификация информации, циркулирующей в организации
|
Место возникновения
По признаку места возникновения информацию можно разделить на входную, выходную, внутреннюю, внешнюю.
Входная информация — это информация, поступающая в фирму или ее подразделения. Выходная информация — это информация, поступающая из фирмы в другую фирму, организацию (подразделение).
Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) может быть определена информация как внутренняя, так и внешняя.
Внутренняя информация возникает внутри объекта, внешняя — за пределами объекта.
Пример. Содержание указа правительства об изменении уровня взимаемых налогов для фирмы является, с одной стороны, внешней информацией, с другой — входной. Сведения фирмы, подаваемые в налоговую инспекцию о размере отчислений в госбюджет, являются, с одной стороны, выходной информацией, с другой — внешней по отношению к налоговой инспекции.
Стадия обработки
По стадии обработки информация может быть первичной, вторичной, промежуточной, результатной.
Первичная информация — это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторичная информация — это информация, которая получается в результате обработки первичной информации; она может быть промежуточной и результатной. Промежуточная информация используется в качестве исходных данных для последующих расчетов. Результатная информация получается в процессе обработки первичной и промежуточной информации и служит для выработки управленческих решений.
Пример. В художественном цехе, где производится роспись чашек, в конце каждой смены регистрируется общее количество произведенной продукции и количество каждым работником расписанных чашек. Это первичная информация. В конце каждого месяца мастер подводит итоги первичной информации. Это, с одной стороны, вторичная промежуточная информация, а с другой — результатная. Итоговые данные поступают в бухгалтерию, где производится расчет заработной платы каждого работника в зависимости от его выработки. Полученные расчетные данные — результатная информация.
Способ отображения
По способу отображения информация подразделяется на текстовую и графическую.
Текстовая информация — это совокупность алфавитных, цифровых и специальных символов, с помощью которых информация представляется на физическом носителе (бумага, изображение на экране дисплея). Графическая информация — это различного рода графики, диаграммы, схемы, рисунки и т. д.
Стабильность
По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной).
Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т. п. Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени информация. Постоянная информация может быть справочной, нормативной,плановой:
□ постоягшая справочная информация включает в себя описание постоянных свойств объекта в виде устойчивых длительное время признаков (например: табельный номер служащего, профессия работника, номер цеха и т. п.);
□ постоянная нормативная информация содержит местные, отраслевые и общегосударственные нормативы (например: размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим);
□ постоянная плановая информация содержит многократно используемые в фирме плановые показатели (например: план выпуска телевизоров, план подготовки специалистов определенной квалификации).
Функция управления
По функциям управления обычно классифицируют экономическую информацию, при этом выделяют следующие группы: плановая, нормативно-справочная, учетная и оперативная (текущая).
Плановая информация — информация о параметрах объекта управления на будущий период. На эту информацию идет ориентация всей деятельности фирмы.
Пример. К плановой информации фирмы могут быть отнесены такие показатели, как план выпуска продукции, планируемая прибыль от реализации, ожидаемый спрос на продукцию и т. д.
Нормативно-справочная информация представляет собой различные нормативные и справочные данные. Ее обновление происходит достаточно редко.
Пример. Нормативно-справочной информацией на предприятии являются:
• время, предназначенное для изготовления типовой детали (нормы трудоемкости);
• среднедневная оплата рабочего по разряду;
• оклад служащего;
• адрес поставщика или покупателя и т. д.
Учетная информация — это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информации могут быть проведены следующие действия: скорректирована плановая информация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управлению работами и пр. На практике в качестве учетной информации могут выступать информация бухгалтерского учета, статистическая информация и информация оперативного учета.
Пример. Учетной информацией являются: количество проданной продукции за определенный период времени; среднесуточная загрузка или простой станков и т. п.
Оперативная (текущая) информация — это информация, используемая в оперативном управлении и характеризующая производственные процессы в текущий (данный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее достоверности. От того, насколько быстро и качественно проводится ее обработка, во многом зависит успех фирмы на рынке.
Пример. К оперативной информации относят:
• количество изготовленных деталей за час, смену, день;
• количество проданной продукции за день или определенный час;
• объем сырья от поставщика на начало рабочего дня и т. д.
1.7. Кодирование при классификации информации
1.7.1. Общие понятия
Система кодирования применяется для замены названия объекта условным обозначением (кодом) в целях обеспечения удобной и более эффективной обработки информации.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется длиной и структурой:
□ длина — число позиций в коде;
□ структура — порядок расположения в коде символов, используемых для обозначения классификационного признака.
Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис. 1.7):
□ классификационная система кодирования ориентирована на предварительную классификацию объектов на основе либо иерархической, либо фасетной системы;
□ регистрационная система кодирования предварительной классификации объектов не требует.
Рис. 1.7. Система кодирования, использующая разные методы |
1.7.2. Классификационное кодирование
Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т. д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.
Пример. Проведем кодирование информации, классифицированной с помощью иерархической схемы (см. рис. 1.5). Количество кодовых группировок определяется глубиной классификации и в данном случае равно 4. Прежде чем начать кодирование, необходимо определиться с алфавитом, то есть выбрать используемые символы. Для большей наглядности выберем десятичную систему счисления — 10 арабских цифр. Анализ схемы на рис. 1.5 показывает, что длина кода определяется четырьмя десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как XXXX7 где X — значение десятичного рдз- ряда. Рассмотрим структуру кода, начиная со старшего разряда:
• 1-й (старший) разряд выделен для классификационного признака «название факультета» и имеет следующие значения: 1 — коммерческий; 2 — информационные системы; 3 — название следующего факультета и т. д.;
• 2-й разряд выделен для классификационного признака «возраст» и имеет следующие значения: 1 — до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет;
• 3-й разряд выделен для классификационного признака «пол» и имеет следующие значения: 1 — мужчины; 2 — женщины;
• 4-й разряд выделен для классификационного признака «наличие детей у женщин» и имеет следующие значения: 1 — есть дети, 2 — нет детей; 0 выделяется для мужчин, так как для них подобной информации не требуется.
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
• 1310 — студенты коммерческого факультета, свыше 30 лет, мужчины;
• 2221 — студенты факультета информационных систем, от 20 до 30 лет, женщины, имеющие детей.
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.
Дата добавления: 2016-04-14; просмотров: 703;