Сравнение моделей знаний
Модели знаний - продукционная, фреймовая и модель семантических сетей - обладают практически равными возможностями представления знаний, использующих отношения "есть-нек" и "есть-часть". Дополнительно каждая модель знаний содержит средства усиления этой "базовой" конфигурации:
- продукционная модель позволяет легко расширять и усложнять множество правил вывода;
- фреймовая модель позволяет усилить вычислительные аспекты обработки знаний за счет расширения множества присоединенных процедур;
- модель семантических сетей позволяет расширять список отношений между вершинами и дугами сети, приближая выразительные возможности сети к уровню естественного языка.
4.9 Тезаурусы экономической информации
Первоначально идея разработки тезаурусов возникла в словарной практике в связи с составлением толковых словарей, как средство описания семантической структуры естественного языка. Затем они были применены в практике автоматизированных информационно-поисковых систем для обеспечения избыточного индексирования документов и информационных запросов. Под избыточным индексированием понимается дополнение поискового образа документов дополнительными дескрипторами, которые связаны по смыслу с основными дескрипторами.
Тезаурус - это словарь-справочник, в котором перечислены все лексические единицы ИМЯ с синонимичными им словами, а также выражены все важнейшие смысловые (парадигматические) отношения между лексическими единицами.
Тезаурус, как элемент информационного языка, выполняет следующие функции:
- средство формализации лексики;
- средство терминологического контроля;
- средство избыточного индексирования информационных запросов;
- средство выражения парадигматических отношений языка.
Основные этапы разработки тезауруса следующие:
а) Выбор источников лексики и отбор терминов.
б) Составление терминологического словаря.
в) Группировка терминов в тематические классы.
г) Формирование классов условной эквивалентности.
д) Установление парадигматических отношений.
е) Определение структуры тезауруса.
а) Для отбора лексического материала необходимо использовать экономические документы, отражающие характеристики экономического объекта. Кроме того, надо пользоваться такими вспомогательными средствами, как толковые и терминологические словари, справочники по исследуемой тематике, общесоюзные классификаторы.
Отбор терминов определяется специальными правилами. Перечислим некоторые из них:
- узкие термины применять, если в словаре отсутствуют подходящие общие термины;
- многословный термин вводить в том случае, если встречается довольно часто;
- прилагательное следует употреблять в сочетании с существительным.
б) В терминологическом словаре каждому отобранному термину дается определение, соответствующее его экономическому смыслу. Терминологический словарь служит в качестве пособия при формировании запросов конечными пользователями.
в) Все термины классифицируются в зависимости от функционального назначения в тематические классы. Ниже приведен перечень тематических классов экономической лексики:
1) Экономические категории, действия, события
2) Субъекты действия
3) Объекты действия
4) Назначение действия
5) Место действия
6) Источник поступления (финансирования)
7) Время действия
8) Функция управления
9) Единица измерения
10)Атрибутивные характеристики действия (разряд работ и т. п.)
11) Обоснование действия
12) Причина отклонения.
г) Дальнейшая работа по составлению тезауруса заключается в устранении многозначности (омонимия, полисемия) и синонимии терминов.
Омонимия - это совпадение в звучании и написании разных слов. Например: лук (растение) и лук (оружие).
Полисемия - это перенос названия одного предмета на другие предметы. Например: звезда (геометрическая фигура) и звезда (небесное тело), матрица (математическая) и матрица (техническая).
Омонимия и полисемия устраняются лексикографически при редактировании терминологического словаря.
Синонимия заключается в том, что одному "означаемому" (предмету, явлению) соответствует одно и более "означающих" (слов, словосочетаний). Например: алфавит - азбука, студенты - студенчество.
При построении тезауруса устранение синонимии производится путем группировки терминов в классы условной эквивалентности (КУЭ).
В КУЭ объединяются термины, между объемами понятий которых существуют отношения:
- равнозначности (геомагнетизм - земной магнетизм);
- перекрещивания, когда часть объема одного понятия входит в объем другого(книга - монография);
- подчинения, когда объем одного понятия составляет часть объема другого понятия (стол - мебель);
- внеположенности, когда объемы понятий полностью исключают друг друга и при этом не исчерпывают области предметов, о которых ведется рассуждение (стол - стул: общий класс - мебель).
В результате формирования классов условной эквивалентности термины тезауруса группируются в синонимические ряды. В каждом синонимическом ряду выделяется доминанта, то есть такой термин, который может заменить любое слово класса. Доминанту принято называть дескриптором. Однако фактически дескриптором является не имя КУЭ, а сам этот класс.
д) Парадигматические отношения в тезаурусах могут выражаться четырьмя способами:
- лексикографически;
- при помощи таблиц;
- аналитически;
- графически.
Лексикографический способ предполагает наличие специальных помет, которые указывают, в каких парадигматических отношениях находится данный дескриптор с заглавным. При этом используются условные обозначения, рекомендуемые ГОСТом, а именно:
н - нижестоящий видовой дескриптор по отношению к заглавному дескриптору;
в - вышестоящий родовой дескриптор по отношению к заглавному дескриптору;
ц - дескриптор находится в отношении - целое к заглавному дескриптору;
ч - дескриптор находится в отношении - часть к заглавному дескриптору;
с - ключевое слово находится в отношении синонимии к заглавному дескриптору;
см - отсылка от ключевого слова к дескриптору.
Табличный способ заключается в том, что под заглавным дескриптором записываются со сдвигом на несколько знаков вправо дескрипторы, находящиеся с ним в определенном отношении. Такой способ применяется в библиотечно-библиографических классификациях.
При аналитическом способе парадигматические отношения выражаются при помощи структуры кодов дескрипторов. Примером применения аналитического способа может служить универсальная десятичная классификация.
Графический способ предполагает применение различных графических схем.
Терминам экономических документов присущи отношения "вид-род", обозначающие смысловую соподчиненность терминов, и "целое-часть", дающие математическую взаимосвязь экономических категорий. Поэтому наиболее удобным будет сочетание лексикографического и табличного способов выражения парадигматических отношений.
е) Структура тезауруса влияет на результаты поиска и соответственно на эффективность работы всей системы.
Как правило, тезаурус представляется в виде совокупности расположенных в алфавитном порядке дескрипторных статей (семантических сегментов). Они представляет собой совокупность заглавного дескриптора и всех дескрипторов, связанных с ним какими-либо парадигматическими отношениями, а также ключевых слов-синонимов. Например:
Выпуск
с выпущено
с выработано
с произведено
с производство
Кольца уплотнительные круглого сечения
в Кольца уплотнительные
н Кольца резиновые уплотнительные круглого сечения, резина группы О
н Кольца резиновые уплотнительные круглого сечения, резина группы 1
Дата добавления: 2015-03-09; просмотров: 1101;