Дескрипторная система классификации
Внемашинное информационное обеспечение ИС
Основные понятия классификации технико-экономической информации
Для того чтобы обеспечить эффективный поиск, обработку на ЭВМ и передачу по каналам связи технико-экономической информации, ее необходимо представить в цифровом виде. С этой целью ее нужно сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.
Классификация — это система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.
Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.
Пример.Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:
· информация о студентах — в виде информационного объекта Студент;
· информация о преподавателях — в виде информационного объекта Преподаватель;
· информация о факультетах — в виде информационного объекта Факультети т.п.
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год,либопризнаками, например цвет, марка машины, фамилия.
Реквизит — логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.
Пример. Информация о каждом студенте в отделе кадров университета систематизирована и представлена посредством одинаковых реквизитов:
· фамилия,имя, отчество;
· пол;
· год рождения;
· место рождения;
· адрес проживания;
· факультет, где проходит обучение студент, и т.д.
Все перечисленные реквизиты характеризуют свойства информационного объекта Студент.
При любой классификации желательно, чтобы соблюдались следующие требования:
· полнота охвата объектов рассматриваемой области;
· однозначность реквизитов;
· возможность включения новых объектов.
В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы.Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.
Классификатор — систематизированный свод наименований и кодов классификационных группировок.
Классификатор— это документ, с помощью которого осуществляется формализованное описание информации в ИС, содержащей наименования объектов, наименования классификационных группировок и их кодовые обозначения.
При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации.
Пример. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.
Каждая система классификации характеризуется следующими свойствами:
· гибкостью системы;
· емкостью системы.
Гибкость системы — это способность допускать включение новых признаков, объектов без разрушения структуры классификатора. Необходимая гибкость определяется временем жизни системы.
Емкость системы — это наибольшее количество классификационных группировок, допускаемое в данной системе классификации.
Методы классификации.
Разработаны три метода классификации объектов:
· иерархический,
· фасетный,
· дескрипторный.
Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации.
1.Иерархическая система классификации (рис. 1) строится следующим образом:
· исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;
· каждый класс 1 -го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;
· каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.
Рис. 1. Иерархическая система классификации
Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.
В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.
Достоинства иерархической системы классификации:
· простота построения;
· использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостатки иерархической системы классификации:
· жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;
· невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта Факультет, которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам:
· факультет, на котором он учится,
· возрастной состав студентов,
· пол студента,
· для женщин — наличие детей.
Система классификации представлена на рис. 2 и будет иметь следующие уровни:
0-й уровень. Информационный объект Факультет;
1-й уровень. Выбирается классификационный признак — название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.
2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных подкласса студентов.
3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы — мужчин и женщин.
4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.
Созданная иерархическая система классификации имеет глубину классификации, равную четырем.
Рис.2. Пример иерархической системы классификации для информационного объекта Факультет
Глубина иерархической классификации – количество её иерархических уровней. Пример многоуровневой классификации представлен на рис. 3(примеры классов: гелевая шариковая ручка, капиллярная ручка с многократной заправкой).
Рис. 3. Пример иерархической классификации (классификация ручек)
(пример с ошибкой: при кодировании невозможно распознать «вид красящего вещества» и «способ возобновления)
Таким образом, при использовании иерархического метода классификации происходит "последовательное разделение множества объектов на подчиненные, зависимые классификационные группировки". Получаемая на основе этого процесса классификационная схема имеет иерархическую структуру.
Характерными особенностями иерархической системы являются:
· возможность использования неограниченного количества признаков классификации;
· соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, образованной по одному признаку, на множество классификационных группировок по нижестоящему (подчиненному) признаку.
Таким образом, классификационные схемы, построенные на основе иерархического принципа, имеют неограниченную емкость, величина которой зависит от глубины классификации (числа ступеней деления) и количества объектов классификации, которое можно расположить на каждой ступени. Количество же объектов на каждой ступени классификации определяется основанием кода, то есть числом знаков в выбранном алфавите кода. (Например, если алфавит – двузначные десятичные числа, то можно на одном уровне разместить 100 объектов). Выбор необходимой глубины классификации и структуры кода зависит от характера объектов классификации и характера задач, для решения которых предназначен классификатор.
К положительным сторонам данной системы следует отнести логичность, простоту ее построения и удобство логической и арифметической обработки.
.
Рис. 4. Классификатор материальных ресурсов для обеспечения производства
Серьезным недостатком иерархического метода классификации является жесткость классификационной схемы. Она обусловлена заранее установленным выбором признаков классификации и порядком их использования по ступеням классификации.Это ведет к тому, что при изменении состава объектов классификации, их характеристик или характера решаемых при помощи классификатора задач требуется коренная переработка классификационной схемы. Гибкость этой системы обеспечивается только за счет ввода большой избыточности в ветвях, что приводит к слабой заполненности структуры классификатора. Поэтому при разработке классификаторов следует учитывать, что иерархический метод классификации более предпочтителен для объектов с относительно стабильными признаками и для решения стабильного комплекса задач.
Пример применения иерархической классификации объектов в корпоративной ИС приведены на рис.4
(КОНЕЦ ПРЕДЫД ЛЕКЦИИ)
2. Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо друг от друга. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Ф) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
ПримерФасет цвет Ф1 содержит значения: красный, белый, зеленый, черный, желтый.
Фасет специальность Ф2 содержит названия специальностей.
Фасет образование Ф3 содержит значения: среднее, среднее специальное, высшее.
Схема построения фасетной системы классификации в виде таблицы отображена на рис. 5. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, ..., Фi, ..., Фп - Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф1, содержит значения: красный, белый, зеленый, черный, желтый.
Рис. 5. Фасетная система классификации
С использованием фасетного подхода классификации строятся в виде таблицыследующим образом (табл. 1):
· Определяют для понятия фасетную формулу, представляющую собой конкретную группировку классификационных признаков Ф = (Ф1, Ф2,…, Фn).
· Строят таблицу, названия столбцов которой соответствуют выделенным в фасетной формуле классификационным признакам.
· Поля таблицы заполняют значениями соответствующих фасетов Ф11, Ф12, Ф13, …, Фn1, …, Фnm. Количество значений разных фасетов (количество строк) может отличатся друг от друга.
Табл. 1 – Абстрактная фасетная классификация
Ф1 | Ф2 | Ф3 | Ф4 | Ф5 | Ф6 |
Ф11 | Ф21 | Ф31 | Ф41 | Ф51 | Ф61 |
Ф12 | Ф22 | Ф32 | Ф42 | Ф52 | Ф62 |
Ф13 | Ф33 | Ф53 | |||
Ф14 | Ф54 | ||||
Ф15 | Ф55 |
В табл. 2 представлена фасетная классификация ручек, где:
Ф1 – способ подачи красящего вещества,
Ф2 – назначение,
Ф3 – количество используемых цветов (примеры классов: двухцветный детский фломастер, одноцветная офисная шариковая ручка).
Табл. 2 – Пример фасетной классификации (классификация ручек) (см. рис. 3, иерархия с ошибкой)
Ф1 | Ф2 | Ф3 |
Перьевая | Представительская | Одноцветная |
Шариковая | Офисная | Двухцветная |
Капилярная | Подарочная | Трёхцветная |
Фломастер | Детская |
Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования: гдеФi —i-й фасет;n — количество фасетов.
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.
Фасетная система позволяет при группировке объектов выбирать классификационные признакиФ = (Ф1, Ф2,…, Фn) независимо друг от друга, что придает ей большую гибкость (табл. 3).
Смысл кодирования в данном случае будет представлен парами чисел (индексов), отражающих номера классификационной позиции (фасета (столбца)) и номера слов (значений (строк)) в соответствующих списках фасета. Например, «белая непрозрачная водостойкая синтетическая эмаль для наружной декоративной отделки» в условиях представленной ниже фасетной классификации будет закодирована, как: Ф1,1; Ф2,3 ; Ф3,3 ; Ф4,1 ; Ф5,1 ; Ф6,2 ; ФN,1.
Таблица 3
Фасетная классификация(на примере лакокрасочных изделий)
Вид | Назначение | Состав | Отношение к воздействию | Оптические свойства | … | Цвет | |
окружающей среды | воды | ||||||
Ф1 | Ф2 | Ф3 | Ф4 | Ф5 | Ф6 | … | ФN |
1.Эмаль 2.Краска 3.Грунтовка 4.Лак … | 1.Техническое 2.Санитарное 3.Декоративное … | 1.Масляная 2.Водная 3.Синтети- ческая … | 1.Для наружных работ 2.Для внутренних работ 3.Для наружных и внутренних работ … | 1.Водостой- кая 2.Неводостой- кая … | 1.Прозрачная 2.Непрозрачная 3.Люминисцент- ная … | … | 1.Белая 2.Голубая 3.Желтая … |
Несмотря на то, что фасетная классификация объектов обладает большей гибкостью (возможность практически не ограниченного добавления числа фасетов, расширения состава значения в отдельных фасетах, группировки множества по любому сочетанию и числу фасетов), в силу специфики характера обработки экономической информации она имеет довольно ограниченное распространение в организационно-экономическом управлениии применяется главным образом для реализации информационно-поисковых систем. Например, каталог поисковой системы Яndex построен с использованием фасетной классификации. Основными фасетами для спецификации поискового образа в нем являются: тема, регион, жанр, источник информации, адресат информации и т.д.
Достоинства фасетной системы классификации:
· возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;
· возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективна дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов, что, несомненно, является его достоинством. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
· отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
· выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
· создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример 1.. В качестве объекта классификации рассматривается успеваемость студентов.Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении.
Пример 2.. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие; занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д.
После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
· синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
· родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
· ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример. Синонимическая связь: студент — учащийся — обучаемый. Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория.
<== предыдущая лекция | | | следующая лекция ==> |
Искусство XVII в. Барокко в Италии. Испания. Фландрия. Голландия. Россия. | | | Классификация диетических блюд |
Дата добавления: 2016-11-02; просмотров: 9466;