Теория и практика информационно-поисковых систем 205


 


обеспечивало переход от более частных понятий к более общим и на­оборот, что давало возможность преобразовать запрос в более част­ный или более общий по сфере охвата документов. Фактически хо­роший информационно-поисковый тезаурус является понятийной мо­делью проблемной области. Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типич­ная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфа­витного указателя дескрипторов, ИПТ может включать частотные указа­тели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:

• синонимы к данному дескриптору;

• «вышестоящие» дескрипторы (более общие термины по сравнению с данным; отношение «гипероним—гипоним»);

• «нижестоящие дескрипторы» (более частные термины по сравнению с данным; отношение «гипоним—гипероним»);

• ассоциативные дескрипторы.

Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синони­мы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.

Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различа­ющимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представля­ет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огром­ной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избы­точного индексирования:поисковый образ документа и поисковое пред­писание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.


Решение о релевантности документа данному запросу определяется специальными критериями выдачи (KB).Здесь различаются два основных типа критериев — вычисляемыеи логические.Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:

где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Nj — общее количество дескрипторов в поисковом пред­писании.

В некоторых случаях для повышения точности поиска различным де­скрипторам приписываются веса, отражающие их значимость для описа­ния содержания документа или для выражения информационной потреб­ности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.

Логические критерии выдачи основываются на тех логических отно­шениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нор­мальной формы — конъюнкции дизъюнкций. Конъюнкцией связыва­ются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.

Увеличение объема документов в современных ИПС приводит к то­му, что ручное индексирование документов становится практически не­возможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание си­стем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в авто­матическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом эта­пе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на вто­ром — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может фигурировать не только исходная словарная форма, но и псевдооснова.

Вторая стратегия решения проблемы ручного индексирования свя­зана с разработкой ИПС бестезаурусного типа. Такие ИПС работают









Дата добавления: 2016-09-20; просмотров: 502;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.006 сек.