Теория и практика информационно-поисковых систем 205
обеспечивало переход от более частных понятий к более общим и наоборот, что давало возможность преобразовать запрос в более частный или более общий по сфере охвата документов. Фактически хороший информационно-поисковый тезаурус является понятийной моделью проблемной области. Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типичная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.
Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфавитного указателя дескрипторов, ИПТ может включать частотные указатели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:
• синонимы к данному дескриптору;
• «вышестоящие» дескрипторы (более общие термины по сравнению с данным; отношение «гипероним—гипоним»);
• «нижестоящие дескрипторы» (более частные термины по сравнению с данным; отношение «гипоним—гипероним»);
• ассоциативные дескрипторы.
Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синонимы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.
Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различающимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представляет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огромной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избыточного индексирования:поисковый образ документа и поисковое предписание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.
Решение о релевантности документа данному запросу определяется специальными критериями выдачи (KB).Здесь различаются два основных типа критериев — вычисляемыеи логические.Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:
где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Nj — общее количество дескрипторов в поисковом предписании.
В некоторых случаях для повышения точности поиска различным дескрипторам приписываются веса, отражающие их значимость для описания содержания документа или для выражения информационной потребности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.
Логические критерии выдачи основываются на тех логических отношениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нормальной формы — конъюнкции дизъюнкций. Конъюнкцией связываются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.
Увеличение объема документов в современных ИПС приводит к тому, что ручное индексирование документов становится практически невозможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание систем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в автоматическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом этапе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на втором — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может фигурировать не только исходная словарная форма, но и псевдооснова.
Вторая стратегия решения проблемы ручного индексирования связана с разработкой ИПС бестезаурусного типа. Такие ИПС работают
Дата добавления: 2016-09-20; просмотров: 502;