Основы классификации информации
Классификация – особый вид логической операции, заключающейся в распределении элементов рассматриваемого множества по подмножествам (делении на классы) в соответствии с определённым признаком (группой признаков). Совокупность правил на основе взаимосвязанных признаков, в соответствии с которыми производится упорядоченное расположение классифицируемых элементов, составляет систему классификации.
Любая классификация основана на делении исходного множества на подмножества по каким-либо признакам. Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки. Признаком классификации называется реквизит (свойство объекта, характеристика, значение), позволяющий установить сходство или различие с другими объектами классификации. Синонимом признака классификации является основание деления.
Классификатор – систематизированный свод наименований и кодов классификационных группировок (более подробному раскрытию понятия «классификатор» посвящён один из последующих подразделов настоящего пособия).
Системы классификации характеризуются гибкостью, ёмкостью и степенью заполненности.
Гибкостью системы классификации называют свойство системы классификации допускать включение новых классификационных группировок без разрушения существующей структуры классификатора.
Ёмкостью системы классификации называют наибольшее возможное количество группировок в данной системе классификации.
Степень заполненности (коэффициент заполненности) системы клас-сификации определяется отношением фактического количества используемых классификационных группировок к ёмкости.
Логическим продолжением классификации является кластеризация, которую можно рассматривать как автоматическую классификацию. Главное отличие кластеризации состоит в том, что перечень классификационных группировок и их характеристики не задаются чётко, а определяются автоматически в процессе обработки.
К системам классификации предъявляются следующие требования:
- полнота охвата объектов рассматриваемой области;
- однозначность реквизитов;
- возможность включения новых объектов.
На основе различных методов применения классификационных признаков строятся иерархическая, фасетная и дескрипторная системы классификации.
3.2.1. Иерархическая система классификации
Под иерархией понимается расположение элементов множества или частей целого в порядке подчинённости от высшего уровня к низшему. В иерархической системе классификации устанавливается такое отношение соподчинения между классификационными признаками, при котором каждое множество высшего порядка содержит непересекающиеся между собой подмножества низшего порядка.
Иерархическая система классификации строится путём последовательного деления исходного множества элементов, составляющего нулевой уровень, на классы (подмножества первого уровня), каждый из которых может делиться на подклассы (подмножества второго уровня), подклассы – на группы (подмножества третьего уровня), группы – на подгруппы (подмножества четвёртого уровня) и т.д.
Таким образом, осуществляется последовательный переход от общих признаков, характерных для всех элементов множества, к детализированным, характерным только для подмножеств более низшего уровня. Выбору классификационных признаков следует уделить особое внимание. Важно не только определить сами признаки, но и установить порядок их использования.
В качестве примера можно рассмотреть иерархическую систему классификации объектов административно-территориального деления Российской Федерации, иллюстрируемую рисунком 3.1. Уровни классификации здесь обозначены пунктирными линиями с цифрами. Конечно, на рисунке представлена далеко не вся Россия. Большинство группировок на уровнях 1, 3, 4 вообще опущено, что показано штриховыми линиями, символизирующими отброшенные ветви. Кроме того, на рисунке не показано дальнейшее деление на подмножества группировок на уровнях 2–4, также обозначенных штриховыми линиями.
Рис. 3.1. Пример иерархической системы классификации объектов
административно-территориального деления Российской Федерации
В рассматриваемом примере всё множество объектов административно-территориального деления Российской Федерации подразделяется на группы согласно территориальному делению. Эти группы располагаются по уровням классификации в соответствии с административной подчинённостью, причём в каждый уровень включаются объекты, непосредственно подчинённые объектам предыдущего уровня.
Так, первый уровень классификации образуется по признаку «наименование субъекта Российской Федерации» и включает в себя все объекты федерального подчинения: республики, края, области, города федерального значения, автономную область и округа, входящие в состав Российской Федерации.
Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. Так, для рассматриваемого примера в разных ветвях, исходящих из первого уровня классификации, уже на втором уровне используются различные не зависимые друг от друга признаки: наименование административного округа Москвы; тип объекта областного подчинения; тип объекта республиканского подчинения.
Глубина классификации (количество уровней, соответствующее числу признаков, выбранных в качестве основания деления) в рассматриваемом примере равна четырём. Причём не все ветви достигают этой глубины. Так, город областного подчинения Шахты находится на третьем уровне и не имеет дальнейшего административного деления, в отличие от «соседнего» Ростова-на-Дону. Однако можно было бы продолжить деление, например, по признаку отнесения к территориальному избирательному участку, или исторически сложившихся наименований территорий (Центр, ХБК, Артём и т.д., однако в этом случае установление чётких границ может оказаться затруднительным).
Основной особенностью иерархической системы классификации является жёсткость структуры, задаваемой порядком использования классификационных признаков. Эта особенность объясняет и достоинства, и недостатки иерархической системы классификации. Отметим, что далеко не для любого множества объектов можно осуществить выбор классификационных признаков и создать соответствующую структуру.
Достоинстваиерархической системы классификации:
- наглядность, простота и логичность построения;
- использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостаткииерархической системы классификации:
- сложность внесения в структуру изменений, связанная с перераспределением объектов по классификационным группировкам;
- невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
3.2.2. Фасетная классификация
Фасетная система классификации, в отличие от иерархической, позволяет выбирать признаки классификации независимо как друг от друга (без соподчинения), так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet – рамка). Каждый фасет содержит совокупность однородных значений данного классификационного признака. Причём значения в фасете могут перечисляться произвольно, хотя предпочтительнее их упорядочение.
Общая схема построения фасетной системы классификации в виде таблицы отображена на рисунке 3.2. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, …, Фi, …, Фn. В каждой клетке таблицы хранится конкретное значение фасета. Количество значений (строк таблицы) для разных фасетов может отличаться. Например, если фасет «Год рождения» обычно характеризуется четырёхзначным числом (а это 10000 различных значений), то для фасета «Пол» можно ограничиться двумя значениями.
|
|
Рис. 3.2. Фасетная система классификации
Процедура классификации заключается в установлении для каждого объекта совокупности значений, соответствующих определённым фасетам. При этом могут быть использованы не все фасеты. Для каждого множества объекта задаётся конкретная группировка фасетов структурной формулой, в которой отражается порядок их следования. Например, если множество «Сведения» задано формулой («Направление», «Форма обучения», «Курс»), то подмножества могут задаваться следующими значениями: («Сервис», «Очная», «Первый»), («Юриспруденция», «Очная», «Второй»), («Сервис», «Заочная», «Четвёртый») и др.
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, добавляя новые фасеты, удаляя существующие или изменяя конкретные значения любого фасета.
Достоинствафасетной системы классификации:
- возможность создания большой ёмкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;
- возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность её построения, так как необходимо учитывать всё многообразие классификационных признаков, а также низкая наглядность.
3.2.3. Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
- отбирается совокупность ключевых слов или словосочетаний, описывающих определённую предметную область или совокупность однородных объектов. Причём среди ключевых слов могут находиться синонимы;
- выбранные ключевые слова и словосочетания подвергаются нормализации, то есть из совокупности синонимов выбирается один или несколько наиболее употребительных;
- создаётся словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми могут быть выбраны следующие слова: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, факультет, подразделение университета, аудитория, комната, лаборатория, лекция, практическое занятие, занятие и др. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, факультет, аудитория, занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трёх видов:
- синонимические – указывают некоторую совокупность ключевых слов как синонимы (студент – учащийся – обучаемый);
- родовидовые – отражают включение некоторого класса объектов в более представительный класс (студент – группа – факультет);
- ассоциативные – соединяют дескрипторы, обладающие общими свойствами (студент – преподаватель – занятие – аудитория).
Дата добавления: 2015-08-26; просмотров: 791;