ПРИМЕЧАНИЕ------------------------------------------------------------------------------------------------------- 2 страница

О Статистическое кодирование базируется на предварительном вычисле­нии частоты повторения одних и тех же кодов в сообщении и составлении таблицы кодирования, позволяющей оптимальным образом расположить результирующий код. Таблица кодирования в этом случае должна стать неотъемлемой частью закодированных данных (методы Хаффмена, Шэн- нона—Фэно, арифметическое кодирование).

О Словарное кодирование основано на нахождении повторяющихся после­довательностей символов в сообщении (слов) и замене каждого повторя­ющегося слова ссылкой на его первое вхождение. В этом случае вместе с закодированным сообщением необходимо хранить (передавать) словарь. К алгоритмам словарного кодирования относятся LZ77, LZ78, LZSS, LZW.

Во многих современных программах-архиваторах применяется последова­тельное (двухшаговое) использование методов статистического и словарного кодирования, позволяющее достигнуть наилучшей степени сжатия данных.

□ Помехозащищенное кодирование служит для передачи данных по каналам связи и учитывает возможность возникновения помех и связанного с этим искажения или утраты части данных. При помехозащищенном кодировании избыточность не снижается, а, наоборот, увеличивается, тем самым обеспечивается возмож­ность определения факта потери или искажения информации. Существует два основных типа помехозащищенного кодирования:

О Кодирование с фиксацией ошибок обладает сравнительно небольшой избыточ­ностью, позволяющей зафиксировать на приемной стороне факт появления в сообщении ошибки. В случае обнаружения ошибки сообщение передается повторно.

О Кодирование с коррекцией ошибок еще более избыточно, что позволяет не только обнаружить возникшую при передаче по каналу связи ошибку, но и исправить ее. Недостатком этого вида кодирования является значитель­ное (примерно в 3 раза) увеличение объема передаваемых данных. По этой причине оно используется гораздо реже, чем кодирование с фиксацией ошибок.

1.6. Основы классификации

и структурирования информации

Важным понятием при работе с информацией является классификация объ­ектов. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться ря­дом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Примени­тельно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример. Всю информацию об университете можно классифицировать по много­численным информационным объектам, которые будут характеризоваться общи­ми свойствами: • информация о студентах — в виде информационного объекта «Студент»; • информация о преподавателях — в виде информационного объекта «Препо­даватель»; • информация о факультетах — в виде информационного объекта «Факультет» и т. п.

 

Свойства информационного объекта определяются информационными пара­метрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными (например, вес, стоимость, год), либо признаками (например, цвет, марка машины, фамилия).


 

Пример. Информация о каждом студенте в отделе кадров университета система­тизирована и представлена посредством одинаковых реквизитов:

• фамилия, имя, отчество;

• пол;

• год рождения;

• место рождения;

• адрес проживания;

• факультет, где проходит обучение студент, и т. д.

Все перечисленные реквизиты характеризуют свойства информационного объ­екта «Студент».

Кроме выявления общих свойств информационного объекта, классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.

Пример. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию обо всех книгах по определенной тематике, об авторах, абонентах и т. д.

Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, прибыли, заказчиках, видах производимой продукции и т. д.

Алгоритмы обработки в том и другом случае преследуют разные цели, обрабаты­вают разную информацию, реализуются разными способами.

В любой стране разработаны и применяются государственные, отраслевые и региональные классификаторы. Например, классифицированы отрасли про­мышленности, оборудование, профессии, единицы измерения, статьи затрат и т. д.


 

При классификации широко используются понятия «классификационный при­знак» и «значение классификационного признака», которые позволяют установить степень сходства или различия объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное признаком классификации. Синонимом признака классификации является основание деления.

Пример. В качестве признака классификации выбирается возраст, который со­стоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.

Можно в качестве признаков классификации использовать возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.

Логическим продолжением задачи классификации является задача кластериза­ции, которую можно воспринимать как автоматическую классификацию. Главное отличие кластеризации в том, что перечень классов (групп) и их характеристики четко не заданы и определяются в процессе работы алгоритма.

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения класси­фикационных признаков.

1.6.1. Иерархическая система классификации

Иерархическая система классификации (рис. 1.4) строится следующим образом:

□ исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), кото­рые образуют 1-й уровень;

□ каждый класс 1-го уровня в соответствии с характерным классификационным признаком делится на подклассы, которые образуют 2-й уровень;

□ каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т. д.

Рис. 1.4. Иерархическая система классификации

 

С учетом достаточно жесткой процедуры построения структуры классификации необходимо перед началом работы определить ее цель, то есть выяснить, какими свойствами должны обладать объединяемые в классы объекты. Эти свойства при­нимаются в дальнейшем за признаки классификации.

ВНИМАНИЕ----------------------------------------------------------------------------------------------------------

В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным зна­чением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от

семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. •

Количество уровней классификации, соответствующее числу признаков, вы­бранных в качестве основания деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

□ простота построения;

□ использование независимых классификационных признаков в различных вет­вях иерархической структуры.

Недостатки иерархической системы классификации:

□ жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

□ невозможность группировать объекты по заранее непредусмотренным сочета­ниям признаков.

Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта «Факультет», которая позволила бы классифи­цировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором учится студент, возрастной состав студентов, пол студента, для женщин — наличие детей.

Система классификации, представленная на рис. 1.5, будет иметь следующие уровни:

• 0-й уровень. Информационный объект «Факультет».

• 1-й уровень. Выбирается классификационный признак — название факульте­та, что позволяет выделить несколько классов с разными названиями факуль­тетов, в которых хранится информация обо всех студентах.

• 2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому фа­культету выделяются три возрастных подкласса студентов.

• 3-й уровень. Выбирается классификационный признак — пол. Каждый под­класс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы: мужчины и женщины.

• 4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.

Созданная иерархическая система классификации имеет глубину классификации, равную четырем.

(Факультет)


 

 


(До 20 лет) (20-30 лет) (Свыше Зо"лёт) (До 20 лет) (20-30 лет) (Свыше 30 лет) Рис. 1.5. Пример иерархической системы классификации для информационного объекта «Факультет»

(Коммерческий) (Информационные системы)


1.6.2. Фасетная система классификации

Фасетная система классификации в отличие от иерархической позволяет вы­бирать признаки классификации независимо как друг от друга, так и от семанти­ческого содержания классифицируемого объекта. Признаки классификации на­зываются фасетами (facet — рамка). Каждый фасет (Ф,) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный, жел­тый. Фасет специальность содержит названия специальностей. Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетной системы классификации в виде таблицы пред­ставлена на рис. 1.6. Названия столбцов соответствуют выделенным классифи­кационным признакам (фасетам), обозначенным Фь Ф2,..., Ф„ Ф„ (например: цвет, размер одежды, вес и т. д.). Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обо­значенный как Ф2, содержит значения красный, белый, зеленый, черный и желтый.

Процедура классификации состоит в присвоении каждому объекту соответству­ющих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:

Ks = (ФЬФ2,..., Ф„ ..., Ф„) Здесь Ф, — i-й фасет; п — количество фасетов.

Фасеты


 

 


O1
Ф,
Ф,
Ф„

Фя


 

 


Значения фасетов

Рис. 1.6. Фасетная система классификации

При построении фасетной системы классификации необходимо, чтобы значе­ния, используемые в различных фасетах, не повторялись. Фасетную систему лег­ко можно модифицировать, внося изменения в конкретные значения любого фасета. Достоинства фасетной системы классификации:

□ возможность достижения большой емкости классификации, то есть исполь­зования большого количества признаков классификации и их значений для создания группировок;

□ возможность простой модификации всей системы классификации без измене­ния структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее по­строения, так как необходимо учитывать все многообразие классификационных признаков.

Пример. Вернемся к примеру из подраздела «Иерархическая система класси­фикации» и для сопоставления разработаем фасетную систему классификации.

Сгруппируем и представим в виде таблицы (табл. 1.1) все классификационные признаки по фасетам:

• название факультета — фасет с пятью названиями факультетов;

• возраст — фасет с тремя возрастными группами;

• пол — фасет с двумя градациями;

• дети — фасет с двумя градациями.

Структурную формулу любого класса можно представить в виде.

Ks = (Факультет, Возраст, Пол, Дети). Присвоив конкретные значения каждому фасету, получим следующие классы:

• Ki = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);

• K2 = (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);

• K3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) ит. д.

Таблица 1.1. Пример фасетной системы классификации для информационного объекта «Факультет»
Название факультета Возраст Пол Дети
Радиотехнический До 20 лет M Есть
Машиностроительный 20-30 лет Ж Нет
Коммерческий Свыше 30 лет    
Информационные системы      
Математический      

 

1.6.3. Дескрипторная система классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классифика­ции, язык которой приближается к естественному языку описания информаци­онных объектов. Особенно широко она применяется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем:

1. Отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут быть синонимы.

2. Выбранные ключевые слова и словосочетания подвергаются нормализации, то есть из совокупности синонимов выбирается один или несколько наиболее употребимых.

3. Создается словарь дескрипторов, то есть словарь ключевых слов и словосочета­ний, отобранных в результате процедуры нормализации.

Пример. В качестве объекта классификации рассмотрим успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, поэтому указанные ключевые слова можно использовать как словарь дескрипторов.

В качестве предметной области выбираем учебную деятельность в высшем учеб­ном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т. д. Среди указанных ключевых слов встречают­ся синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т. д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т. д.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

□ синонимические связи указывают некоторую совокупность ключевых слов как синонимов;

□ родо-видовые связи отражают включение некоторого класса объектов в более представительный класс;

□ ассоциативные связи соединяют дескрипторы, обладающие общими свойствами.

Пример. Синонимическая связь: студент — учащийся — обучаемый. Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория.

1.6.4. Классификация информации по разным признакам

Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситу­ации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуаль­ны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потреби­телями, для разных целей.

В табл. 1.2 приведена одна из схем классификации циркулирующей в органи­зации (фирме) информации. В основу классификации положено пять наиболее общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция управления.

Таблица 1.2. Классификация информации, циркулирующей в организации
Информация
По месту возникновения По стабильности По стадии обработки По способу отображения По функции управления
Входная Переменная Первичная Текстовая Плановая
Выходная Постоянная Вторичная Графическая Нормативно-спра- вочная
Внутренняя   Промежуточная   Учетная
Внешняя   Результатная   Оперативная

 

Место возникновения

По признаку места возникновения информацию можно разделить на входную, выходную, внутреннюю, внешнюю.

Входная информация — это информация, поступающая в фирму или ее под­разделения. Выходная информация — это информация, поступающая из фирмы в другую фирму, организацию (подразделение).

Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) может быть определена информация как внутренняя, так и внешняя.

Внутренняя информация возникает внутри объекта, внешняя — за пределами объекта.

Пример. Содержание указа правительства об изменении уровня взимаемых налогов для фирмы является, с одной стороны, внешней информацией, с дру­гой — входной. Сведения фирмы, подаваемые в налоговую инспекцию о размере отчислений в госбюджет, являются, с одной стороны, выходной информацией, с другой — внешней по отношению к налоговой инспекции.

Стадия обработки

По стадии обработки информация может быть первичной, вторичной, проме­жуточной, результатной.

Первичная информация — это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторич­ная информация — это информация, которая получается в результате обработки первичной информации; она может быть промежуточной и результатной. Проме­жуточная информация используется в качестве исходных данных для последую­щих расчетов. Результатная информация получается в процессе обработки пер­вичной и промежуточной информации и служит для выработки управленческих решений.

Пример. В художественном цехе, где производится роспись чашек, в конце каждой смены регистрируется общее количество произведенной продукции и ко­личество каждым работником расписанных чашек. Это первичная информация. В конце каждого месяца мастер подводит итоги первичной информации. Это, с од­ной стороны, вторичная промежуточная информация, а с другой — результатная. Итоговые данные поступают в бухгалтерию, где производится расчет заработной платы каждого работника в зависимости от его выработки. Полученные расчетные данные — результатная информация.

Способ отображения

По способу отображения информация подразделяется на текстовую и графи­ческую.

Текстовая информация — это совокупность алфавитных, цифровых и специ­альных символов, с помощью которых информация представляется на физическом носителе (бумага, изображение на экране дисплея). Графическая информация — это различного рода графики, диаграммы, схемы, рисунки и т. д.

Стабильность

По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной).

Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т. п. Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени информация. Постоянная информация может быть справочной, нормативной,плановой:

□ постоягшая справочная информация включает в себя описание постоянных свойств объекта в виде устойчивых длительное время признаков (например: табельный номер служащего, профессия работника, номер цеха и т. п.);

□ постоянная нормативная информация содержит местные, отраслевые и обще­государственные нормативы (например: размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим);

□ постоянная плановая информация содержит многократно используемые в фир­ме плановые показатели (например: план выпуска телевизоров, план подготовки специалистов определенной квалификации).

Функция управления

По функциям управления обычно классифицируют экономическую информа­цию, при этом выделяют следующие группы: плановая, нормативно-справочная, учетная и оперативная (текущая).

Плановая информация — информация о параметрах объекта управления на будущий период. На эту информацию идет ориентация всей деятельности фирмы.

Пример. К плановой информации фирмы могут быть отнесены такие показатели, как план выпуска продукции, планируемая прибыль от реализации, ожидаемый спрос на продукцию и т. д.

Нормативно-справочная информация представляет собой различные норматив­ные и справочные данные. Ее обновление происходит достаточно редко.

Пример. Нормативно-справочной информацией на предприятии являются:

• время, предназначенное для изготовления типовой детали (нормы трудоем­кости);

• среднедневная оплата рабочего по разряду;

• оклад служащего;

• адрес поставщика или покупателя и т. д.

Учетная информация — это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информа­ции могут быть проведены следующие действия: скорректирована плановая инфор­мация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управлению работами и пр. На практике в качестве учетной информации могут выступать информация бухгалтерского учета, статистическая информация и информация оперативного учета.

Пример. Учетной информацией являются: количество проданной продукции за определенный период времени; среднесуточная загрузка или простой станков и т. п.

Оперативная (текущая) информация — это информация, используемая в опе­ративном управлении и характеризующая производственные процессы в текущий (данный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее досто­верности. От того, насколько быстро и качественно проводится ее обработка, во многом зависит успех фирмы на рынке.

Пример. К оперативной информации относят:

• количество изготовленных деталей за час, смену, день;

• количество проданной продукции за день или определенный час;

• объем сырья от поставщика на начало рабочего дня и т. д.


1.7. Кодирование при классификации информации

1.7.1. Общие понятия

Система кодирования применяется для замены названия объекта условным обо­значением (кодом) в целях обеспечения удобной и более эффективной обработки информации.


 

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется длиной и структурой:

□ длина — число позиций в коде;

□ структура — порядок расположения в коде символов, используемых для обо­значения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодировани­ем. Можно выделить две группы методов, используемых в системе кодирования (рис. 1.7):

□ классификационная система кодирования ориентирована на предварительную классификацию объектов на основе либо иерархической, либо фасетной системы;

□ регистрационная система кодирования предварительной классификации объ­ектов не требует.

Рис. 1.7. Система кодирования, использующая разные методы

 

1.7.2. Классификационное кодирование

Классификационное кодирование применяется после проведения классифика­ции объектов. Различают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классифика­ционной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т. д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирова­ния обладает теми же достоинствами и недостатками, что и иерархическая система классификации.

Пример. Проведем кодирование информации, классифицированной с помощью иерархической схемы (см. рис. 1.5). Количество кодовых группировок опреде­ляется глубиной классификации и в данном случае равно 4. Прежде чем начать кодирование, необходимо определиться с алфавитом, то есть выбрать использу­емые символы. Для большей наглядности выберем десятичную систему счисле­ния — 10 арабских цифр. Анализ схемы на рис. 1.5 показывает, что длина кода определяется четырьмя десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как XXXX7 где X — значение десятичного рдз- ряда. Рассмотрим структуру кода, начиная со старшего разряда:

• 1-й (старший) разряд выделен для классификационного признака «название факультета» и имеет следующие значения: 1 — коммерческий; 2 — информа­ционные системы; 3 — название следующего факультета и т. д.;

• 2-й разряд выделен для классификационного признака «возраст» и имеет следующие значения: 1 — до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет;

• 3-й разряд выделен для классификационного признака «пол» и имеет следу­ющие значения: 1 — мужчины; 2 — женщины;

• 4-й разряд выделен для классификационного признака «наличие детей у жен­щин» и имеет следующие значения: 1 — есть дети, 2 — нет детей; 0 выделяется для мужчин, так как для них подобной информации не требуется.

Принятая система кодирования позволяет легко расшифровать любой код груп­пировки, например:

• 1310 — студенты коммерческого факультета, свыше 30 лет, мужчины;

• 2221 — студенты факультета информационных систем, от 20 до 30 лет, жен­щины, имеющие детей.

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество раз­рядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.








Дата добавления: 2016-04-14; просмотров: 703;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.047 сек.